Нейромережа Facebook передбачила рухи музикантів з аудіозапису

Розробники з Facebook представили нейромережу, яка вміє передбачати рухи рук музиканта з аудіозапису. Система слухає музичну композицію і одночасно проектує в доповненій реальності аватара, який грає мелодію. Програмісти, чия стаття була представлена на конференції Conference on Computer Vision and Pattern Recognition (CVPR), вважають, що розробка може бути корисна для навчання грі на музичних інструментах.


Сьогодні для самостійного навчання грі на різних інструментах використовуються різні додатки та відеоуроки. Однак вони, як правило, дозволяють розглянути рухи музиканта лише з певного ракурсу. Перенесення вчителя у віртуальну або доповнену реальність може бути зручним для користувачів, оскільки він дозволить їм повністю побачити правильну постановку рук при грі на інструменті.


Група розробників під керівництвом Елі Шліцермана (Eli Shlizerman) вирішила створити віртуальний аватар, який би міг імітувати рухи рук піаніста або скрипаля, ґрунтуючись на аудіозаписі. Для цього вони використовували LSTM-нейромережу. Це різновид архітектури рекуррентних нейромереж, де кожен шар має зворотний зв'язок з іншими шарами і володіє своєрідною пам'яттю, що дозволяє вчитися на своїх помилках і засвоювати довгострокові зв'язки (детальніше про LSTM-нейромережі можна почитати в нашому матеріалі «Найлюдське завдання»).

Як дані для навчання програмісти використовували публічно доступні відеозаписи, на яких професіонали грають на музичних інструментах без акомпанемента. Для піаніно дослідникам вдалося зібрати 3,6 години матеріалу, для скрипки - 4,4 години. На кожному кадрі відеозаписи нейромережа визначала, де знаходяться руки і пальці виконавця і будувала скелетну модель. Вона зіставляла ці дані з меловим частотним кепстральними коефіцієнтами, які використовуються в якості характеристики аудіосигналів. Важливо зауважити, що дослідники не використовували midi-файли, тому нейромережа не навчалася залежностям між нотами і, наприклад, конкретними клавішами піаніно.

У результаті програма навчилася визначати взаємозв'язок між характеристиками звуку і рухами рук музиканта і будувати передбачення. Створену нейромережею скелетну модель розробники використовували для створення аватара в доповненій реальності. Підсумок їх роботи можна побачити на відео нижче:

На відеоролику добре видно, що аватар швидше наслідує музикантів, ніж повноцінно повторює їхні рухи. Тим не менш, рухи віртуального персонажа виглядають цілком природно. На думку творців, у майбутньому подібна технологія може знайти безліч застосувань. Наприклад, аватар може бути використаний для навчання - в той час як він буде копіювати рухи професіонала у віртуальній реальності, користувач зможе обійти його з різних сторін і поспостерігати за технікою гри.

Сьогодні віртуальні аватари все частіше використовуються для вирішення різних завдань. Наприклад, з їх допомогою пропонують опитувати свідків злочину, лікувати хворих на шизофренію і паралізованих людей.

COM_SPPAGEBUILDER_NO_ITEMS_FOUND