Розробники Google зібрали базу даних синтезованих голосів

Навчання 09 січня 2024

Фахівці компанії Google зібрали масштабний датасет, який містить тисячі записів синтезованої англійської мови. Всього в базі даних доступні кілька десятків «голосів». Детальніше про це можна прочитати в блозі компанії: поки що датасет відкритий тільки для розробників - учасників конкурсу зі створення автоматичних систем розрізнення синтезованого і реального мовлення.

Технології синтезу мовлення (text-to-speech) дозволяють формувати мовний сигнал з друкованого тексту. Для цього людині, чий голос використовується для кінцевої моделі, необов'язково проговорювати весь потрібний текст цілком: потрібна тільки репрезентативна вибірка даних, з яких можна виділити достатню кількість фонем для подальшого якісного синтезу. Зараз такі технології в основному використовуються для озвучування голосових помічників: наприклад, про те, як навчилася розмовляти Аліса, голосовий помічник компанії «Яндекс», ви можете прочитати в нашому матеріалі «Аліса, скажи що-небудь».

Синтез мови постійно поліпшується: наприклад, у грудні 2017 року розробники Google створили систему, яка може виробляти усну мову, майже невідличну від людської. Створення та використання настільки ефективних технологій порушує важливі питання приватності даних користувачів: з хорошим синтезом зловмисники можуть правдоподібно скопіювати чужий голос і використовувати його в своїх цілях.

Спеціально для того, щоб цьому запобігти, Google опублікувала велику базу даних зразків синтезованої мови: до неї входять кілька тисяч уривків з газет, «зачитаних» 68 синтезованими голосами. Фрази звучать англійською і імітують кілька різних акцентів.

Поки що датасет доступний тільки для учасників конкурсу Automatic Speaker Verification, який присвячений навчанню систем, що дозволяють автоматично відрізнити синтезовану мову від реальної. Результати конкурсу будуть підведені у вересні цього року; чи будуть дані доступні для сторонніх розробників, поки невідомо.

Крім ефективного синтезу голосу зараз також створюються системи, які дозволяють переносити обличчя і навіть рухи між людьми. Наприклад, влітку минулого року в NVIDIA створили нейромережу, яка дозволяє переносити рухи людини з одного відео на тіло людини в іншому.

Розробники Google зібрали базу даних синтезованих голосів

Рулетики за 30 хвилин

Квітка з лука

Домашній святковий хліб

М'ясо в кокосовій підливі

Десерт «Малина у кольорі»

Лечо з томатним соком