Розробники вибрали найкращий алгоритм для перетворення знімків на комікс

Навчання 16 листопада 2023

Польські розробники виявили, що із завданням перенесення стилю з коміксу на фотографію найкраще справляється адаптивна роздільна нормалізація - алгоритм, запропонований раніше вченими з Корнелського університету. Для цього автори протестували найвідоміші методи перенесення стилю між зображеннями та оцінити результати звичайним людям. Стаття опублікована на arXiv.org.

Першим ефективний спосіб перенесення стилю між зображеннями в 2015 році запропонував колектив вчених з Німеччини. Їхній підхід ґрунтувався на роботі згорточних нейромереж, які найуспішніше справляються із завданнями, пов'язаними з аналізом зображень. Таке завдання, тому, не є принципово новим, хоча відтоді його багато разів допрацьовували і покращували: можна згадати, наприклад, програму Prisma, яка з'явилася два роки тому.

Переважна більшість запропонованих методів, однак, зосереджені на перенесенні стилів художників на інші зображення. Мацей Пенсько (Maciej P″ Iko) і Томаш Тшчинський (Tomasz Trzci^ ski) вирішили оцінити ефективність найбільш просунутих методів перенесення на зображення графічного стилю коміксів.

State-of-the-art підхід, запропонований вченими з Німеччини і згаданий раніше, включає в себе перенесення стилю: навчання згорточних нейромереж ознакам вихідного (об'єктам на знімку) і цільового (текстура і дрібні деталі) зображення і подальшої генерації нового зображення за допомогою білого шуму. Цей підхід, однак, має важливий недолік: для обробки зображення з роздільною здатністю 512 ст.1512 пікселів комп'ютеру з потужним графічним процесором доведеться витратити цілу хвилину.

У цій роботі він не розглядався, оскільки автори зосередилися на тих алгоритмах, які витрачають на обробку не більше двох секунд. Перший розглянутий спосіб адаптивної роздільної нормалізації (AdaIn, adaptive instance normalization), однак, багато в чому заснований саме на ньому, але включає в себе також функцію втрат, за рахунок чого час роботи вдалося істотно скоротити. Тим не менш, якість перенесення стилю виявилася обмежена через те, що модель включала в себе тільки середнє і дисперсію розглянутих ознак. Поліпшити такий метод вдалося китайським розробникам, які за рахунок збільшення кількості шарів навчилися «відбілювати» і «розфарбовувати» зображення в цільовій стилістиці. Такий підхід назвали «універсальним перенесенням стилю» (UST-WCT, universal style transfer). У тій же роботі вони оптимізували алгоритм, скоротивши кількість шарів з п'яти до чотирьох (UST-WCT4), а також додали до нього адаптивну роздільну нормалізацію (UST-AdaIN). Нарешті, останній спосіб, фотореалістична стилізація зображень (PHOTO-R, photorealistic image stylization), також заснований багато в чому на універсальному перенесенні стилю, але етап згладжування дозволяє домогтися підвищеної реалістичності.

Автори використовували всі розглянуті підходи на декількох зображеннях з роздільною здатністю 600 ^ 450 пікселів. Отримані результати (кілька зображень) дали оцінити сотні людей. Журі дійшло висновку, що найреалістичніший метод - це адаптивна роздільна нормалізація (29,37 відсотка голосів).

Незважаючи на те, що опитані спостерігачі змогли вибрати найкращий варіант, ідеальним його назвати не можна: Пенсько і Тшчинський відзначають некоректне перенесення кольору і недоречне розмиття зображень на кадрах. На думку авторів нової роботи, для того, щоб використовувати алгоритми на основі нейромереж для перенесення стилів з коміксів, їх роботу необхідно вдосконалювати і далі.

Ви можете переносити інформацію не лише між двома зображеннями. Наприклад, за допомогою нейромереж можна використовувати стиль художника для того, щоб «розфарбувати» відео, а також для того, щоб перетворити популярну пісню на класичну симфонію.

Розробники вибрали найкращий алгоритм для перетворення знімків на комікс

Рулетики за 30 хвилин

Квітка з лука

Домашній святковий хліб

М'ясо в кокосовій підливі

Десерт «Малина у кольорі»

Лечо з томатним соком