Не музика ще, вже не шум

Технології 02 січня 2024

Умінням комп'ютерів торгувати на біржі, розпізнавати обличчя, прокладати маршрути, обігравати людину у все більш складні ігри (го вже позаду, попереду - покер і старкрафт) вже складно когось здивувати. Яким би не було практичне завдання, здається, що за допомогою чарівного слова «нейромережа» скоро можна вирішити і її. Все, що залишиться нам з вами, - приглядати за машинами, присвятивши себе вільній творчості. Є лише одна проблема: комп'ютери, схоже, скоро стануть змагатися з людьми навіть у творчості - принаймні, інженери провідних IT-компаній вже щільно займаються цим питанням.

Вальс на кістках

Дуглас Ек, атлетичний чоловік у хіпстерських окулярах і картатій сорочці, показує презентацію з десятком кольорових спектрограм. Він клікає на одну з них, і зал, наповнений інженерами і журналістами, раптом оглушають гітарні риффи. «Це Metallica», - пояснює Ек присутнім, більшість з яких подібне явно чують вперше. «А ось, наприклад, Діззі Гіллеспі», - Ек перемикає спектрограму, гітарні риффи змінюються джазовими трубами, і зал полегшено видихає. Обидва записи дійсно нагадують якісь невидані треки музикантів, але навіть найвідданіший фанат не зможе їх впізнати. Це не рідкісні демо і навіть не нарізка окремих фрагментів - це повністю синтетичні фонограми, автором яких є не людина, а нейромережа, яку Дуг і його команда розробляють в рамках проекту Magenta.

Дуглас Ек показує кілька музичних фрагментів, отриманих командою Magenta

Проект Magenta - одна з команд всередині Google Brain, дослідницького підрозділу глобального пошукача, який об'єднує людей, що займаються експериментальними підходами в області машинного інтелекту. Тут була створена перша система, що розпізнає котів на відеозаписах, тут вчать нейромережі змагатися у вигадуванні шифрів і покращувати машинний переклад. Але навіть у такій строкатій компанії команда «Мадженти» виглядає трохи ексцентрично: Дуглас і його співробітники хочуть використовувати машинне навчання не для вирішення якихось практичних завдань, а щоб комп'ютер зміг писати музику і займатися мистецтвом. «Навіщо?» - запитаєте ви. У Magenta задають інші питання: "Якщо це можливо, то як? Є ні, то чому? "- саме так звучить слоган проекту.

Малюй зі мною

Послідовність подій важлива не тільки в музиці та мовленні, але і в олівцевих начерках, а значить, ті ж RNN можна навчити малювати. На сайті Magenta з ними можна вступити у творчий діалог - вони продовжать ваш начерк і створять сотні його аналогів. Неважливо, малюєте ви біля кошеняти мордочку або все тіло, одне око або три - ШІ зможе побачити тварину навіть у зубній щітці.

Вальс на кістках

Звичайно, експерименти зі створенням «штучної музики» проводилися задовго до появи і Google, і сучасних комп'ютерів. Один з перших відомих нам дослідів приписується самому Моцарту - мова йде про гру в так звані музичні кістки. Вони являли собою звичайні гральні кістки, які відповідно до спеціальної таблиці дозволяли вибрати один із заздалегідь підготовлених коротких музичних фрагментів і додати його в партитуру. Кидаючи кістки багато разів, можна було створити до 11¹⁶ унікальних вальсів, які, втім, були дуже схожі один на одного. Створення ще одного варіанту подібної гри приписується Гайдну, але, як і у випадку з Моцартом, історики не підтверджують його авторства, хоча і визнають популярність подібних ігор у XVIII столітті.

Подальша історія «штучної музики» пов'язана з авангардистами вже нашого часу - винаходом композитором Йосипом Шиллінгером заплутаної геометричної системи, яка повинна була знайти об'єктивні закони музики, з сюрреалістичними експериментами Яніса Ксенакіса, який для вибору нот використовував вже не примітивні кістки, а розподіл Пуассона тощо. Цікаво, що, незважаючи на офіційну боротьбу з формалізмом, експерименти в цьому напрямку велися і в СРСР. Їх піонером був математик Рудольф Заріпов: на початку 1960-х років він отримав доступ до одного з перших в країні комп'ютерів і розробив власну систему кодування нот і руху мелодії. ЕВМ, на якій він працював, називалася «Урал», тому отримані твори Заріпов назвав «Уральськими наспівами». На щастя, і вони, і їхні поліфонічні версії збереглися, так що при бажанні їх можна послухати.

Картини з шуму

Психоделічні галюцинації DeepDream обходяться без RNN, але залишаються найвідомішим прикладом креативності нейромереж.

Наскільки музичними були подібні експерименти, залишимо судити музикознавцям, але алгоритми їх побудови були практично однакові: створення музики автори «систем» довіряли якомусь випадковому генератору, який просував партитуру від такту до такту за заздалегідь заданими законами. Джерелом цих законів був сам автор - саме він повинен був передбачити і узагальнити всі можливі варіанти розвитку мелодії та акомпанемента. Однак на практиці пошук об'єктивних музичних законів виявився справою майже непідйомною - так чи інакше, ні «Уральські наспіви», ні інші формальні творіння (а підхід застосовувався не тільки в музиці, але і в літературі) хітами не стали.

Однак приблизно в цей же час, у розпал захоплення математиків музичними алгоритмами, з'явилися ті самі нейромережі, про які сьогодні не чув хіба що цифровий анахорет. Їх пристрій передбачав зовсім інший підхід: нейромережі вихідно були заточені на те, щоб не шукати струнких, зрозумілих людині закономірностей, а аналізувати прості кореляції, причому в автоматичному режимі. Поява нейромереж з музичними експериментами вихідно ніяк не була пов'язана, але саме їм судилося вдихнути в цю область нове життя. Однак слід обмовиться, що мова йде не про нейромережі взагалі, а системах особливого класу - рекуррентних, або RNN (recurrent neural network).