Нейромережа навчили перетворювати 2D-картинки на 3D-моделі на основі поверхні об'єктів

Навчання 16 листопада 2023

Дослідники з Каліфорнійського університету в Берклі розробили алгоритм, який дозволяє створювати тривимірні моделі об'єктів, ґрунтуючись тільки на реконструкції його поверхні, видимої на плоскому зображенні. Алгоритм працює на основі згорточної нейромережі і перевершує інші методи 3D-реконструкції за якістю отриманих моделей. Стаття з описом роботи нейромережі доступна на сайті arXiv.

Сучасні технології комп'ютерного зору дозволяють реконструювати об'єкти в тривимірному просторі з його двомірного зображення. Такі алгоритми активно застосовуються у створенні комп'ютерних ігор, а також в інших видах комп'ютерної графіки. Згорточні нейромережі часто застосовуються для створення подібних програм: отримуючи на вхід двомірне кольорове зображення об'єкта, нейромережа становить «сітку» з вокселів (елементів об'ємного зображення), з яких складається зображений об'єкт. Такий метод, однак, сильно обмежений параметром роздільної здатності зображення: наприклад, для реконструкції об'єкта, роздільна здатність якого дорівнює 50 50 пікселів, нейромережі потрібно буде скласти «сітку», що складається з 125 тисяч вокселів, що може вимагати багато часу і оперативної пам'яті, незважаючи на те, що не всі отримані вокселі в результаті будуть використані в 3D-моделі.

Автори нової роботи запропонували новий метод створення 3D-моделей на основі двомірних зображень - ієрархічне передбачення поверхні (hierarchical surface prediction, коротко HSP). Цей метод ґрунтується на ідеї про те, що для успішної тривимірної реконструкції необхідні тільки ті вокселі, які знаходяться на поверхні об'єкта, а все, що всередині і зовні нього, можна «викинути», тим самим скоротивши час роботи алгоритму і оперативну пам'ять комп'ютера. Для цього вони поділяють тривимірну модель об'єкта на три частини: порожні вокселі (все, що знаходиться поза об'єктом), повні вокселі (ті, які знаходяться всередині тривимірного об'єкта) і межі об'єкта (вокселі його двомірної поверхні). Порожні та повні вокселі «викидаються», а нейромережа реконструює об'єкт, ґрунтуючись тільки на його поверхні.

Алгоритм працює з використанням згорточної нейромережі, яка приймає на вхід один з трьох видів зображень: кольорове двомірне зображення об'єкта, його карту глибини (англ. depth map) або тривимірну модель. Після цього нейромережа реконструює тривимірне зображення об'єкта в низькій роздільній здатності (16 вокселів, або 16 16 16 пікселів) і «викидає» порожні і повні вокселі. Зображення потім реконструюють ще раз, у кращій роздільній здатності, після чого процедура позбавлення від зайвих вокселів проводиться знову і знову. У результаті отримується тривимірна модель об'єкта в роздільній здатності 256 вокселів (або 256 ст.1256, 256 пікселів).

Автори потім порівняли роботу HSP з роботою двох інших методів тривимірної реконструкції, заснованих на визначенні тільки порожніх і повних вокселів у низькій роздільній здатності. Результати роботи HSP перевершують результати роботи інших нейромереж за якістю отриманих 3D-моделей.

Розробники застосовують різні методи машинного навчання для поліпшення існуючих методів створення 3D-моделей. У нашій замітці ви можете прочитати, як для створення реалістичних тривимірних моделей місцевості використовують породжувальні змагальні мережі.

Нейромережа навчили перетворювати 2D-картинки на 3D-моделі на основі поверхні об'єктів

Рулетики за 30 хвилин

Квітка з лука

Домашній святковий хліб

М'ясо в кокосовій підливі

Десерт «Малина у кольорі»

Лечо з томатним соком