Нейромережа навчила Барака Обаму говорити під фонограму

Навчання 16 листопада 2023

Розроблена технологія, яка незабаром зможе поліпшити відеоконференції і доповнити віртуальну реальність. Вчені з Вашингтонського університету придумали систему, що дозволяє вставляти сторонню промову у відеоряд, практично точно відтворюючи артикуляційну міміку балакучого. Матеріалом для створення такої системи послужили 17 годин записів відеозвернень 44-го Президента США Барака Обами до американських громадян. З препринтом статті, яка буде представлена в серпні на конференції SIGGRAPH 2017, можна ознайомитися на сайті університету.

Конвертування аудіозаписів людського голосу у відео має величезне практичне застосування: від поліпшення відеоконференцій, звук в яких дуже часто відстає від відео, до використання у віртуальній реальності та кіновиробництві. Така технологія розробляється вже дуже давно, і матеріалом для неї служать відео, записані в лабораторних умовах, на яких люди точно проговорюють окремо взяті фонеми. Досі не було проведено роботи з конвертації аудіо у відео на основі реальних записів мови людей.

Автори нової роботи створили алгоритм реалістичного накладення сторонніх аудіозаписів на відеоряд, що зображує розмовну людину. Їхній підхід ґрунтується на роботі рекуррентних нейромереж. З аудіозапису спочатку витягуються окремо взяті фонеми, з яких відтворюється артикуляційна міміка. На основі цього створюється реалістична форма доль, яка потім накладається на потрібне відео, а сам відеоряд налаштовують так, щоб рухи голови балакучого виглядали природно.

В результаті дослідники поєднали відеоряд звернень Барака Обами до американських громадян з аудіо з інших відео, в яких він говорить про батьківство в ефірі телешоу або про своє обрання в головні редактори юридичного журналу в 1990-му році. Фрагменти фрагменти при цьому виглядають реалістично.

Створена дослідниками система поліпшила подібну технологію, проте сама концепція накладення сторонньої інформації на відео не нова. У нашій замітці ви можете прочитати про технологію face2face, яка накладає рухи обличчя однієї людини на відео, що зображує іншу, а тут - про розробку Disney Research, що дозволяє проектувати грим на відео.

Нейромережа навчила Барака Обаму говорити під фонограму

Рулетики за 30 хвилин

Квітка з лука

Домашній святковий хліб

М'ясо в кокосовій підливі

Десерт «Малина у кольорі»

Лечо з томатним соком