Інженери Apple навчили Raspberry Pi розпізнавати події в будинку за звуком

Американські програмісти розробили алгоритм для розумних колонок, що дозволяє їм вчитися розпізнавати дії в будинку власника за звуком при цьому майже не обтяжуючи його. Алгоритм аналізує звуки, запам'ятовуючи місце розташування їх джерела, і розбиває їх на кластери, а коли в кластері набирається досить схожих звуків, він запитує у користувача, що це за дія. Розробка інженерів з Apple та Університету Карнегі - Меллона буде представлена на конференції CHI 2020, а стаття про неї опублікована на сайті університету.


Багато великих IT-компаній, такі як Apple, Google або Amazon, розвивають великі системи розумного будинку на базі своїх голосових помічників. В ідеальному сценарії людина повинна мати можливість керувати за допомогою голосових команд будь-якими пристроями в будинку, а також отримувати зворотний зв'язок від них.


У багатьох класах пристроїв вже є моделі, що підтримують пряму інтеграцію з розумним будинком через бездротовий зв'язок, але таких моделей поки меншість. Для деяких типів пристроїв є компромісні рішення, наприклад, розумні розетки, що подають струм по команді, або інфрачервоні пульти для управління телевізором або іншим підтримуючим такий канал приладом. Частину речей у будинку в принципі неможливо підключити до системи розумного будинку, тому що в ній немає електричних компонентів.

Так чи інакше, на сьогоднішній день немає системи розумного будинку, здатної створити повноцінний і всеосяжний зв'язок між голосовим помічником і всіма об'єктами або подіями в будинку. Інженери під керівництвом Джерада Лапута (Gierad Laput) з Apple та Університету Карнегі - Меллона розробили відносно простий метод, що дозволяє розумній колонці самостійно навчатися розпізнаванню подій у будинку практично без допомоги користувача.

Запропонований ними метод виходить з того, що колонка зазвичай стоїть в одній і тій же кімнаті в одному і тому ж місці, а навколишні предмети інтер'єру, які, до речі, теж рідко змінюють своє місце розташування, зазвичай змінюються раз на кілька років і протягом цього часу видають схожі звуки. Таким чином, у голосового помічника з'являється два досить надійних і практично незмінних параметри для розпізнавання: акустична характеристика події і її місце розташування, яке можна обчислити за допомогою масиву з декількох мікрофонів.

Інженери реалізували прототип розумній колонці на базі мікрокомп'ютера Raspberry Pi, масиву з чотирьох мікрофонів, підключеної по проводу колонки і підключеного по Wi-Fi потужного комп'ютера для обробки даних. Пристрій постійно знаходиться в режимі прослуховування, але на повноцінну обробку потрапляють тільки аудіофрагменти, що пройшли фільтрацію за мінімальною гучністю і відсіканням фонових шумів. З відібраного фрагмента звуку будується мел-спектрограма, яка подається на згорточну нейромережу, навчену на датасеті YouTube-8M з доповнюючими даними з датасета професійних звукових ефектів. Дані забираються з передостаннього шару мережі, щоб отримати їх в більш низькорозмірному уявленні.

Ці уявлення потрапляють у загальний простір даних і обробляються алгоритмом ієрархічної агломеративної кластеризації, завдяки чому поступово алгоритм формує кластери зі схожих аудіофрагментів. На етапі кластеризації крім даних про звуки алгоритм також враховує і дані про напрямок джерела звуку, причому під час класифікації нових аудіозаписів в першу чергу використовується саме напрямок.

Після того, як програма накопичила достатньо даних в кластері і вони досить близькі між собою, щоб можна було припустити, що всі вони відносяться до одного унікального звуку, система просить користувача присвоїти назву цьому звуку. Це може відбуватися в різному вигляді. Наприклад, якщо використовується модель без попередніх даних, голосовий помічник може просто запитати «Що це за звук?». Якщо в помічнику є попередньо створена загальна модель поширених звуків, він може зробити припущення, наприклад, «Це відкрилися дверцята мікрохвильовки?». Крім того, якщо дані двох кластерів частково перетинаються, помічник може попросити користувача уточнити, який з двох звуків тільки що виник.


Розробники протестували прототип розумної колонки в різних приміщеннях. Найкращий результат колонка показала на кухні: точність класифікації склала 97 відсотків, а повнота 87 відсотків.

Нещодавно Apple зареєструвала патентну заявку на метод, що дозволяє уточнювати голосові команди розумній колонці. Він припускає, що колонка за допомогою своєї камери або камери в іншому сумісному пристрої зможе розуміти, на що дивиться користувач, і розуміти команди з вказівними займенниками, такими як «Включи цю лампу». А пізніше суміжна група дослідників, дві третини якої є авторами нової статті, представила алгоритм для смартфонів, що поєднує дані з передньої і задньої камери, і завдяки цьому розуміє, про який об'єкт говорить користувач.

COM_SPPAGEBUILDER_NO_ITEMS_FOUND