Вчені відтворили беззвучну промову щодо активності мозку

Навчання 09 січня 2024

Американські вчені та інженери розробили прототип інвазивного пристрою-декодера, що дозволяє синтезувати промову по активності мозку при русі органів мовного тракту - причому в одному експерименті їм вдалося відтворити беззвучну мову, хоча і з втратою якості. У майбутньому на основі цього прототипу можна буде створювати нові нейрокомп'ютерні інтерфейси, йдеться в статті, опублікованій в журналі.

Нейрокомп'ютерні інтерфейси дозволяють зчитувати і обробляти дані про активність головного мозку, вони, серед іншого, застосовуються для допомоги пацієнтам з втратою мови, але поки їм доступні в основному прилади, що дозволяють керувати курсором за допомогою рухів голови або очей, які працюють досить повільно порівняно зі звичайною промовою. На початку року в вийшла стаття, авторам якої вдалося навчити алгоритм відтворювати промову з мозкової активності людини при її прослуховуванні. Для цього вони використовували активність аудиторної кори, отриманої за допомогою електродів, вживлених в мозок пацієнтів з епілепсією, при прослуховуванні окремих цифр, а потім синтезували на її основі короткі фрази. Отримана мова виявилася розбірливою в 75 відсотках випадків.

Група під керівництвом Едварда Ченга (Edward Chang) з Каліфорнійського університету в Сан-Франциско запропонувала свій метод синтезу мови з мозкової активності при русі щелепи, гортані, 1916 і мови. За їхніми словами, цей двоетапний метод (розпізнавання активності мозку, пов'язаної з рухом органів мови, і трансформації цих сигналів у слова) зараз дозволяє точніше синтезувати мову, ніж якби добровольці, наприклад, думали про задані слова або навіть просто предмети, хоча такі методи теж цікавлять вчених.

Спочатку дослідники за допомогою електрокортикографа записували сигнали кори головного мозку у п'ятьох добровольців з епілепсією, які вимовляли вголос кілька сотень речень. Ці пропозиції були спеціально підібрані так, щоб відтворювати весь спектр типової для англійської мови активності мовного тракту. При цьому автори дослідження вважають, що їхній прототип цілком зможе працювати і з іншими мовами під час попереднього навчання на відповідному мовному матеріалі.

Вони навчили одну рекуррентну нейронну мережу розпізнавати в активності вентральної сенсомоторної кори, верхньої скроневої звивини і нижньої лобної звивини елементи руху мовного тракту, а другу мережу - розпізнавати в них акустичні параметри мови, виходячи з яких вона потім синтезувалася.

В експерименті зі 101 пропозицією кілька сотень слухачів з платформи Amazon Mechanical Turk намагалися розпізнавати і транскрибувати синтезовану промову, вибираючи слова із запропонованих: у довгій версії експерименту на 82 реченнях 43 відсотки учасників домоглися абсолютного результату, транскрибувавши всі слова вірно, а в короткій, з 60 реченнями (де слів на вибір було більше) таких був 21 відсоток. Особливо добре розпізнавалися фрикативні звуки, а вибухові звуки типу [b], навпаки, передавалися не дуже вдало. Типовий нейрокомп'ютерний інтерфейс дозволяє синтезувати приблизно 5-10 слів на хвилину залежно від швидкості набору тексту, тоді як прототип вчених працює на звичній швидкості мовлення в 120-150 слів на хвилину для англійської мови.

В окремому експерименті одна людина спочатку вимовляла по одному з 58 речень, а потім повторювала ті ж рухи мовного апарату, але без звуку. Вченим вдалося синтезувати промову і на основі сигналів від «німих» рухів, хоча її якість була гіршою. На телефонному прес-брифінгу Ченг, зокрема, зазначив, що в майбутньому вони бачать роботу нейрокомп'ютерного інтерфейсу на основі їхнього прототипу саме так: людина активно намагається вимовити слова - навіть якщо вона, наприклад, паралізована, мозок все одно відправляє відповідні сигнали органам мовного тракту - і машина, навчена на активності чужого мозку, синтезує промову. При цьому Чанг підкреслив, що мова йде тільки про розпізнавання усної мови, але не мисленої, тобто внутрішньої мови, як би інтенсивно людина не думала про слова.

Крім вдосконалення самого алгоритму розпізнавання і синтезування мови, вчені планують продовжити роботу, на цей раз з людьми, які мають придбані проблеми з промовою і, можливо, навіть ніколи не говорили з медичних причин - проте Ченг не зміг сказати, скільки часу пройде до моменту клінічних випробувань системи або тим більше до впровадження її в медичну практику. Випробування на людях з проблемами мови, за його словами, ще не почалися. Крім того, зараз робота прототипу вимагає хірургічного втручання для розміщення датчиків на корі мозку, і, за словами Ченга, неінвазивних інструментів такої точності поки немає.

Інвазивні інтерфейси можуть допомагати людям у різних завданнях: так, американські вчені розробили нейроінтерфейс, який дозволяє паралізованим людям користуватися планшетом. Такий інтерфейс передає сигнал від вживлених в моторну кору електродів до планшета через Bluetooth, керуючи курсором. Учасникам експерименту вдалося за допомогою нього зробити покупки, поспілкуватися в месенджері і скористатися калькулятором. Крім того, для реабілітації дисфункцій кінцівок паралізованих пацієнтів використовують і неінвазивні методи, наприклад, електроенцефалографію. Минулого року за допомогою цього методу, наприклад, вдалося за дев'ять тижнів тренувань на 36 відсотків поліпшити роботу паралізованої в наслідок інсульту руки у пацієнта.

Вчені відтворили беззвучну промову щодо активності мозку

Рулетики за 30 хвилин

Квітка з лука

Домашній святковий хліб

М'ясо в кокосовій підливі

Десерт «Малина у кольорі»

Лечо з томатним соком