"Виховання машин: Нова історія розуму "

Машинний інтелект змінив уклад людського життя, ознаменувавши перехід до нової цифрової економіки. Транспорт, охорона правопорядку, медицина, розваги - куди не подивися, нейромережі всюди знаходять собі застосування і отримують у своє розпорядження все більшу владу. У книзі "Виховання машин: Нова історія розуму "(видавництво" Альпіна нон-фікшн ") кандидат фізико-математичних наук і фахівець у галузі машинного навчання та штучного інтелекту Сергій Шумський розповідає, чому дослідження в галузі ШІ сьогодні прогресують як ніколи швидко, якими можуть бути соціальні та економічні наслідки цього процесу і чому" сильний штучний інтелект "має бути схожий на людський. пропонує своїм читачам ознайомитися з уривком, присвяченим голосовим помічникам: що таке сенсорний інтелект, чому все більше компаній вкладають гроші в розробку голосових асистентів і з якими складнощами стикаються їх творці.

Сучасні цифрові платформи: сенсорний інтелект

Голосові помічники стали новацією 2010-х років в якості нового інтерфейсу користувача в епоху смартфонів. Вони, як і безлюдні магазини Amazon Go, зобов'язані своєю появою новому поколінню алгоритмів машинного навчання - так званому глибокому навчанню штучних нейронних мереж. Технологічний прорив у машинному навчанні в 2010-х, відомий як революція глибокого навчання, пов'язаний з досягненням комп'ютерами критичної продуктивності 1011 FLOPS, порівнянної з людською, за доступними цінами.


Це, звичайно, не означало автоматично появи штучного інтелекту, як він колись замислювався його батьками-засновниками. Для цього у людства поки що банально не вистачає відповідних знань, про що ми ще поговоримо в главі 5. Потужності сьогоднішніх суперкомп'ютерів досягають 1016 FLOPS, проте це досі не призвело до появи сильного ШІ. Але деякі розробки 1980-х і 1990-х років, для яких свого часу просто не вистачало обчислювальних потужностей, щоб вийти на рівень окремих когнітивних здібностей, порівнянний з людським, «вистрілили» саме в цей момент. Йдеться про навчання деяких типів штучних нейронних мереж, розроблених для роботи із зображеннями (звіркові нейронні мережі) і тимчасовими сигналами (мережі з довготривалою пам'яттю).

Виявилося, що просто за рахунок збільшення кількості шарів у таких (глибоких) нейромережах і збільшення обсягу даних для їх навчання, для чого тепер були обчислювальні потужності, якість розпізнавання картинок і звуку може досягати людського рівня. У підсумку протягом 2010-х років, завдяки технологіям глибокого навчання, машини, говорячи простою мовою, навчилися бачити і чути не гірше людину.

Відповідно з'явилася маса нових можливостей для заміни людини машинами - там, де люди працювали «розумними сенсорами»: контролерами, охоронцями, операторами кол-центрів, і в інших професіях з відносно простою бізнес-логікою. Звідси - прохідні без охоронців, магазини без продавців, таксі без водіїв, безлюдні кол-центри і голосові помічники в смартфонах і розумних колонках.

І це ще тільки початок. Потенційний ринок додатків слабкого ШІ, наділеного надлюдськими сенсорними можливостями за доступними цінами, надзвичайно великий. Він стосується наймасовіших професій - продавців, касирів, водіїв тощо, тому обіцяє великий економічний ефект. Виявляється, люди, принаймні багато з них, не такі вже й незамінні.

Відклавши обговорення цієї найважливішої проблеми до наступного розділу, задамося поки одним чисто практичним питанням про драйвери розвитку ШІ. Чи є економічна доцільність у подальшому вдосконаленні технологій машинного навчання або бізнес може обмежитися досягнутими успіхами, зосередивши зусилля на бізнес-інноваціях, тобто на освоєнні вже відкрилися завдяки слабкому ШІ ринків? Від відповіді на це питання залежить, зокрема, обсяг вкладень у розробку сильного ШІ і відповідно час появи останнього.

Видається, що в силу згаданого вище ефекту позитивного зворотного зв'язку тим, хто хотів би освоїти нові ринкові ніші за допомогою існуючого слабкого ШІ, немає сенсу чекати подальших інновацій. Треба поспішати, оскільки в кожній такій ніші діє принцип «переможець забирає все». Так що в 2020-х роках нас очікує інвестиційний бум нових доткомів, які використовують розроблені в 2010-х технології глибокого навчання.


Драйвером сильного ШІ виступають сьогодні вже сформовані цифрові платформи, що обслуговують глобальні споживчі ринки, ті, для кого голосові помічники являють собою найважливіший канал спілкування з їх користувачами. Адже для масового користувача діалог природною мовою - максимально зручний спосіб побутового спілкування зі смартфонами, навігаторами, розумними колонками та іншою домашньою електронікою. Саме через своїх електронних асистентів - Google Assistant, Alexa, Cortana і їм подібних - сучасні платформи просувають свої сервіси в маси. Розумні колонки сьогодні - один з найбільш швидко зростаючих сегментів споживчої електроніки, тому в сегменті голосових асистентів спостерігається дуже сильна конкуренція. Найбільші інтернет-компанії витрачають істотну частину доходів на вдосконалення своїх голосових асистентів.

Розмовний інтерфейс - шлях до сильного ШІ

Але незважаючи на всі ці вкладення, якість розмовного інтерфейсу досі залишає бажати кращого. При цьому і розпізнавання мови у голосових помічників, і якість їх синтетичної мови вже цілком задовільні. Їх можна і далі покращувати, в тому числі за рахунок камер, що розпізнають міміку, жести та емоції користувача. Проблема не в розпізнаванні мови, а в розумінні її змісту і вмінні вести осмислену бесіду, тобто в створенні того, що можна назвати розмовним інтелектом.

З'ясовується, що одного сенсорного інтелекту для спілкування природною мовою зовсім недостатньо. Розпізнавання мови лише найбільш поверхневий шар справжнього розмовного інтелекту, переклад звукового сигналу в текст. Звичайно, завдяки глибокому навчанню в машинній обробці текстів теж є великі успіхи. Це видно хоча б за досить високою якістю сучасного машинного перекладу. Однак виявляється, що викладати один і той же зміст іншою мовою і робити умовиводи на основі цього змісту - завдання різного рівня складності. Перше вимагає наявності у машини семантичного простору, в якому відображається зміст пропозицій, тоді як друге передбачає вміння оперувати в цьому семантичному просторі, прокладати в ньому осмислені траєкторії - міркування.

Розмовний інтелект повинен навчатися формувати осмислену поведінку в семантичному просторі, розуміючи на кожному кроці цілі і позиції всіх учасників діалогу, включаючи свої власні. Значить, він і сам повинен вміти ставити перед собою якісь цілі і домагатися їх досягнення. Іншими словами, машинний переклад ще можна віднести до завдань розпізнавання образів - відображення вихідного тексту в його семантичне уявлення, а останнього - в текст іншою мовою. Розмовний же інтелект відноситься до набагато більш складного класу завдань - навчання адаптивної доцільної поведінки, включаючи раціональне мислення як різновид поведінки в семантичному просторі і вміння усвідомлено маніпулювати сенсами. А це - прямий шлях до справжнього сильного ШІ.

Сучасне машинне навчання намагається знайти рішення цього завдання за допомогою все тих же глибоких нейромереж. У всіх на слуху недавні перемоги машин у всіляких стратегічних іграх, від культової давньої гри го до новомодних StarCraft 2 і Dota 2, де потрібно реагувати на дії суперників в реальному часі і будувати гіпотези про те, що відбувається в непостережуваних областях ігрового поля. Ці досягнення демонструють здатність глибоких нейромереж формувати корисні поведінкові навички і будувати виграшні стратегії у віртуальних світах. Але сучасні алгоритми поки що не дозволяють машинному інтелекту вирватися з цих віртуальних світів у реальний. Навчання нейромереж відбувається сьогодні надто повільно, і відповідний «життєвий досвід» за прийнятний час вдається набрати лише у віртуальному світі за рахунок суттєвого прискорення темпу гри. Ці алгоритми неможливо перенести на навчання роботів у реальному світі, де у них не буде стільки часу на навчання і стількох віртуальних життів, якими заплачено за невдалі рішення.

До того ж, якщо повернутися до розмовного інтелекту, у нас поки немає віртуальних світів для відточування розмовних навичок. Асистентам треба вчитися міркувати і вести діалоги, а для цього - пробувати самим генерувати варіанти відповідей у різних сценаріях. Звичне навчання на великих корпусах готових діалогів тут не підходить. Треба, щоб хтось оцінював якість кожної репліки в незліченних вітальних варіантах розвитку діалогів, з яких лише дуже мало хто може бути присутнім у навчальній вибірці. А на це поки що здатні тільки живі люди і лише в реальному часі.

Резюмуючи, можна сказати, що існуючий рівень машинного інтелекту явно не влаштовує лідерів цифрової революції, які гостро потребують розмовного інтелекту людського рівня і будуть вкладатися в його створення, щоб не відстати від конкурентів. Ринок розмовного інтелекту подвоюється кожні 2 роки і в 2020 році повинен був перевищити $12 млрд. Так що попит на сильний ШІ в сучасній економіці вже сформувався, і ми розуміємо, кому і для чого він сьогодні потрібен. Отже, цим вже має сенс займатися, хоча ще зовсім недавно після всіх пережитих розчарувань завдання побудови сильного ШІ всерйоз не сприймалося, а розмови про нього вважалися ненауковими.


Цифрові платформи майбутнього: інтелект роботів

Розмовний інтелект «тут і зараз» потрібен тим, хто сьогодні заробляє в основному за рахунок персоналізації реклами. Що собою являють ті ж електронні вітрини Amazon, як не набір рекламних банерів, зроблених з урахуванням переваг кожного покупця? Тим часом весь рекламний ринок, $560 млрд, становить лише 0,5 відсотка світового ВВП. Так що ринковий потенціал для застосування ШІ набагато ширший, ніж ринок розумних програмних асистентів.

Але для радикального розширення області застосувань ШІ програмним агентам належить вийти з віртуального світу в реальний, перетворитися на роботів. Сенсорний інтелект агентів належить доповнити моторним інтелектом роботів - здатністю активно взаємодіяти зі світом, мати предиктивну модель зовнішнього світу і своїх дій у ньому, щоб, наприклад, розуміти, що стілець або чашку можна переставити з місця на місце, а шафа або машину краще і не намагатися, або що, якщо чашку нахилити, її вміст виллється, або що двері іноді відкриваються легко, а іноді ні і, якщо вони замкнені, в них треба не ломитися, а стукати. Останнє вже відноситься до області соціального інтелекту - розуміння того, як прийнято себе вести в суспільстві, чого від тебе чекають в тих чи інших ситуаціях, «що таке добре і що таке погано».

Всі ці елементарні знання, відомі будь-якій дитині, неможливо запрограмувати, їм треба навчатися. І навчатися активно, методом проб і помилок, як це роблять діти. А для цього у роботів повинна бути штучна психіка з вродженою цікавістю, налаштована, як і у дітей, на постійне навчання, щоб якомога швидше набратися досвіду і навчитися досягати своїх цілей в цьому складному і непередбачуваному спочатку світі. Штучна психіка роботів повинна бути настільки універсальна, щоб вона могла забезпечити ефективне навчання всім видам інтелекту: сенсорному, моторному, соціальному і розмовному. Адже і діти навчаються ходити, говорити і вести себе правильно практично одночасно.

У математиці буває, що іноді легше вирішити завдання в більш загальній постановці, яка краще відображає суть проблеми. Можливо, розробка штучної психіки - той самий випадок: замість безлічі спеціалізованих систем, що навчаються різним завданням за різними лекалами (підхід, прийнятий сьогодні в глибокому навчанні), краще розробити єдиний загальний інтелект (Artificial General Intelligence, AGI).

Детальніше читайте: . Виховання машин: Нова історія розуму/Сергій Шумський. - М.: Альпіна нон-фікшн, 2021. - 174 с.


COM_SPPAGEBUILDER_NO_ITEMS_FOUND