Привіт, Siri, нам треба поговорити

Навчання 16 листопада 2023

Наприкінці липня 2019 року багато ЗМІ поширили новину про те, що пристрої Apple підслуховують приватні розмови людей з лікарями і навіть записують їхні дії в ліжку, а потім ці записи разом з метаданими потрапляють на прослуховування людям зі сторонніх компаній. Через тиждень увагу до цієї ситуації змусило Apple призупинити програму оцінки якості Siri. Розбираємося, чи так нова і виняткова ця ситуація, як турбота про користувачів позбавила їх приватності і чи можна цю приватність зберегти, не позбавляючи себе зручностей, які надають нам сучасні технології.

Для початку варто розібратися в тому, як працюють голосові помічники. Найлегше це зробити на прикладі розумних колонок, в яких ця функція основна. Розумні колонки дуже розумні, щоб марно витрачати багато обчислювальних ресурсів на розпізнавання всіх звуків навколо. Тому ці пристрої працюють інакше - вони дійсно постійно слухають те, що відбувається навколо, але шукають у цих звуках не всі підряд, а лише активаційну фразу. У Siri це «Привіт, Siri», в Google Assistant - «Окей, Google», а в помічнику Яндекса «Алісі» - «Аліса». Тільки якщо колонка почула потрібну фразу, вона починає відсилати подальшу промову користувача на сервер для розпізнавання і смислової обробки.

Така схема роботи обумовлена двома факторами. По-перше, якісно розпізнавати всі слова однієї мови - це технічно складне завдання, а робити це на досить слабких з обчислювальної точки зору колонках ще складніше. Якщо ж колонці потрібно стежити лише за двома словами, алгоритм можна добре навчити розпізнавати різні акценти на самому пристрої, не відсилаючи дані на сервери компанії.

І тут виникає другий фактор. Активаційна фраза - це свого роду інструмент, що дає користувачеві почуття контролю за тим, що з його розмов потрапляє на сервери компанії-розробника, а що залишається тільки між ним і співрозмовником. Другий такий інструмент - кнопка вимикання мікрофона, яка зазвичай з тих же міркувань на апаратному рівні обмежує доступ алгоритмів до мікрофона. Багато в чому саме на довірі до цих інструментів заснована популярність колонок, число яких, судячи з даних досліджень, перевалить за 200 мільйонів проданих пристроїв до кінця року.

Шум у західних ЗМІ та соціальних мережах, що піднявся після скандалу за участю Apple, а також трохи ранніх майже аналогічних скандалів за участю Amazon і Google, пов'язаний з тим, що, як з'ясували користувачі, один з цих інструментів не працює або працює не так, як вони припускали. Справа в тому, що, незважаючи на всі успіхи алгоритмів для розпізнавання голосу, вони все ще неідеальні. Через це виникає дві проблеми: хибноотрицьовні та ложноположні спрацювання. Перші означають, що алгоритм не розпізнає сказану користувачем активаційну фразу. Це не відмінно, але і не жахливо, тому що фразу можна повторити і домогтися відповіді. Другий тип помилок небезпечніший - алгоритм чує фразу там, де її немає, і починає пересилати на сервер всі подальші звуки.

Оскільки компанії зацікавлені в підвищенні якості роботи алгоритмів, вони постійно коригують їх. При цьому нейромережеві алгоритми розпізнавання мови вимагають великої кількості даних, причому бажано зібраних не в лабораторії, а в реальних умовах, в яких люди користуються пристроями. Наприклад, скрута алгоритму може викликати сторонній шум у кімнаті або запит від дитини, яка нечітко вимовляє слова. Для доотримання алгоритму дані для нього повинні бути розмічені: кожній ділянці на записі потрібно зіставити слово. Крім того, проаналізувати потрібно і самі відповіді алгоритму на предмет того, наскільки вони логічні і відповідають на поставлене користувачем питання.

Саме для цього в Apple, Amazon, Google і Яндекс працюють програми підвищення якості роботи алгоритмів, в рамках яких фахівці розмічають дані частини користувачів. Крім того, як з'ясувалося, фахівцями можуть виступати співробітники сторонніх компаній або навіть користувачі краудсорсингових сервісів, як у випадку з Яндексом і «Алісою». Тому в тому, що записи розмов користувачів слухають інші люди, немає злого наміру, і така робота над помилками якраз повинна знизити кількість подібних записів.

Однак сказати, що компанії не винні в ситуації, теж не можна. Всі ці історії привернули суспільний інтерес через те, що компанії практично ніяк не згадують про подібні програми і звичайний користувач не може дізнатися про них без шуму в ЗМІ і вимушених офіційних заяв компаній.

Іноді доходить до того, що сама технічна можливість запису виявляється сюрпризом для користувачів. Найяскравіший приклад цього - недавня історія з Google, яка поглинула виробника пристроїв розумного будинку Nest. На початку року Google оголосила, що її розумний помічник Assistant «оселиться» в деяких вже випущених і проданих пристроях Nest, у тому числі сигналізації Nest Guard. Загалом оголошення не виглядає дивним, якщо не згадувати про один факт: на сайті виробника ніколи не було зазначено, що в пристрої є працюючий мікрофон, необхідний для цієї функції. Пізніше Google визнала помилку, але запевнила, що не хотіла приховувати це від користувачів.

Крім того, є питання (в основному риторичні) і до організації програм з поліпшення якості. Наприклад, чому користувачі включені в них за замовчуванням, а не можуть самостійно погоджуватися на це? Чому «знеособлені» дані містять у собі крім аудіозаписів відомості про місце розташування в момент запису? До речі, про те, наскільки знеособлені дані насправді анонімні, можна прочитати в недавньому дослідженні європейських вчених в (вибачте, що не написали про нього замітку).

Нарешті, питання приватності набагато ширше, ніж голосові помічники. Наприклад, все більше поширення отримують розумні камери, зв'язок з якими також відбувається через сервери компаній-виробників. При цьому дані, одержувані за допомогою камер становлять більший інтерес для компаній, наприклад, в якості датасетів для навчання нейромереж, а також можуть містити більш приватну інформацію.

Що ж робити, якщо користуватися розумною колонкою хочеться, а віддавати записи своєї промови комусь ще - не дуже? По-перше, у випадку з Apple, компанія пообіцяла, що в майбутньому дасть користувачам можливість відмовитися від участі в програмі поліпшення якості. Незабаром після цього подібне налаштування пообіцяла ввести Amazon. Враховуючи увагу суспільства і влади деяких країн до подібних ситуацій у Google, а також в цілому до скандалів, пов'язаних з приватністю, наприклад за участю Facebook, існує досить велика ймовірність, що така ж можливість скоро з'явиться у користувачів Google Assistant і Microsoft Cortana. Однак це все ще буде означати, що користувач повинен довіряти компанії і сподіватися на те, що все ще записувані і зберігані дані не передаються на оцінку фахівцям.

Є другий шлях - відкриті проекти, такі як Mycroft. Це найвідоміший і найбільш близький до звичайного користувача подібний проект. Він складається з розумної колонки на базі Raspberry Pi і відкритого програмного забезпечення на базі Mozilla DeepSpeech. Однак він все одно проводить обробку голосу на сервері компанії-розробника. Є також доброзичливий до користувача проект Snips, що має закритий код, але здатний після навчання працювати в офлайн-режимі. Нарешті, існують відкриті проекти голосових помічників для локального розпізнавання мови, такі як Kalliope, але для їх розгортання все ж будуть потрібні деякі навички розробника.

Третій варіант, мабуть, найкраще балансує між приватністю і зручністю. Нещодавно ми розповідали про проект, який являє собою насадку на розумну колонку Google Home і Amazon Echo, яка постійно видає білий шум прямо в мікрофон колонки і припиняє робити це тільки тоді, коли користувач виголосив активаційну фразу, яку, до речі, можна зробити будь-хто. Після цього колонка працює в звичайному режимі, спілкуючись з серверами Google або Amazon.

А якщо вам потрібна залізна впевненість в тому, що розумна колонка не «зливає» ваші розмови кому-небудь ще, краще покладіть її назад в коробку і поставте на антресоль.

Привіт, Siri, нам треба поговорити

Рулетики за 30 хвилин

Квітка з лука

Домашній святковий хліб

М'ясо в кокосовій підливі

Десерт «Малина у кольорі»

Лечо з томатним соком