Нейромережі пристосували для пошуку по тексту в аудіо і відео

Американська компанія Lexika запустила сервіс пошуку за текстом в аудіо- і відеофайлах. Коротко про новий онлайн-сервіс розповідає The Next Web, скористатися пошуком можна після реєстрації на сайті DeepGram.


Користувач сервісу може щомісяця завантажувати до 40 годин аудіо і відео. Файли можна завантажувати з локального диска або за посиланням з популярних відеохостингів, після чого DeepGram проіндексує їх і функція пошуку буде доступна. Користувач може як переглянути текстову транскрипцію файлу цілком, так і знайти безпосередньо місце, де звучить шукана фраза - шукані місця будуть позначені червоними точками на часовій шкалі.


Подробиць про роботу сервісу не повідомляється, проте наголошується, що DeepGram використовує методи глибокого навчання і орієнтується при пошуку не на написання проіндексованого тексту, а на фонетичну транскрипцію. Такий підхід дозволяє онлайн-платформі шукати і знаходити не тільки точно збігаються слова і фрази, але і ті, які звучать схоже при різному написанні. Однак у фонетичного пошуку є і негативний ефект - через нього в результатах може міститися велика кількість помилок.

Як зазначає The Next Web, сервіс може стати в нагоді всім, хто працює з великими обсягами аудіо і відео. Наприклад, подібний сервіс може допомогти в пошуку потрібної ділянки в подкасті, при роботі з записаним інтерв'ю або зорієнтувати в записаній на мобільний телефон лекції. Також сервіс надає доступ до API - таким чином, можливостями DeepGram можуть скористатися у своїх проектах і сторонні розробники.

Це не перший випадок, коли нейромережі використовуються для пошуку всередині відеофайлів. У 2015 році дослідники з Амстердамського університету представили пошукову систему для відеороликів на YouTube, яка як запит приймає від користувача послідовність емодзі.

COM_SPPAGEBUILDER_NO_ITEMS_FOUND