Amazon представила сервіс створення персональної системи синтезу мовлення

Навчання 15 грудня 2023

Компанія Amazon запустила сервіс створення системи синтезу мови з голосом конкретної людини на основі зразків її промови. Amazon пропонує використовувати сервіс брендам, пов'язаним з конкретною людиною або чином. Наприклад, вона створила для KFC алгоритм синтезу мовлення Полковника Сандерса.

Розвиток алгоритмів синтезу звуку, таких як WaveNet, привернув до цієї області увагу дослідників і компаній, в результаті чого за останні роки з'явилося багато голосових помічників і систем синтезу мови, які розробники можуть використовувати у своїх додатках. Однак майже завжди система синтезу мови від однієї компанії може говорити одним або максимум кількома голосами, причому вони, як правило, не належать відомим людям. Є винятки, наприклад, голос Джона Ледженда в Google Assistant, проте в цілому поки великі розробники голосових помічників і систем синтезу мови до недавнього часу не дозволяли створювати алгоритм, що говорить голосом конкретної людини.

Amazon, яка вже надає розробникам додатків сервіс Polly для синтезу мови різними мовами і різними голосами, запустила в рамках цього сервісу функцію створення голосу користувача. Сервіс доступний як у вигляді голосу для навичок голосового помічника Alexa, так і у вигляді окремого API, що отримує текст і видає файл з аудіозаписом, який можна використовувати будь-яким чином.

У першу чергу вона націлена на компанії, які хочуть використовувати у своїх сервісах голос відомого представника бренду. Як приклад Amazon показала результат роботи з KFC, яка для свого канадського відділення створила голосову модель символу компанії - Полковника Сандерса:

Компанія не розкриває вартість і подробиці роботи сервісу, проте, ймовірно, він заснований на алгоритмі, описаному в статті співробітників Amazon в 2019 році. Алгоритм бере дані конкретної людини і додає їх до генералізованої нейросетевої моделі, навченої на інших даних. У результаті на навчання моделі потрібно набагато менше зразків мови, ніж при використанні інших підходів, але якість синтезу виходить високою.

Поки однією з найбільш реалістичних і масштабно застосовуваних систем синтезу мови залишається Google Duplex. Ця функція працює в США і Новій Зеландії, і дозволяє забронювати столик в ресторані або зробити іншу дію, попросивши Google Assistant. Після цього алгоритм сам знайде потрібну інформацію, в тому числі телефон закладу, зателефонує і повідомить користувачеві підсумок. Система виявилася настільки реалістичною. що після запуску Google довелося навчити її на початку дзвінка уточнювати, що говориталгоритм, а не людина.

Amazon представила сервіс створення персональної системи синтезу мовлення

Рулетики за 30 хвилин

Квітка з лука

Домашній святковий хліб

М'ясо в кокосовій підливі

Десерт «Малина у кольорі»

Лечо з томатним соком