Етична нейромережа заборонила гнатися за істиною і дозволила катувати ув'язнених

Навчання 16 листопада 2023

Вчені створили алгоритм, який дає відповідь на етичні питання. В основі моделі лежить нейромережа, яка має фрази і пропозиції в багатовимірному векторному просторі. Алгоритм обчислював близькість етичних питань у векторному просторі можливим відповідям. «Вбивати людей» було одним з найгірших варіантів, проте в список поганих дій також потрапили «гнатися за істиною» і «вступати в шлюб». При цьому «катувати ув'язнених» нейромережу вважала допустимим. Автори роботи, опублікованої в журналі виявили, що набір найкращих дій за версією моделі залежить від вихідного корпусу текстів: результат був різним при навчанні на книгах різних століть, новинах, релігійних текстах і конституціях різних країн.

Системам штучного інтелекту довіряють все більше завдань: від керування автомобілями до пілотування автономних ракет. Алгоритми навчаються на текстах, створених людиною, і переймають людські етичні норми і упередження. Цими нормами алгоритми керуються при прийнятті рішень, а оскільки ми довіряємо їм все більш складні завдання і рішення, необхідно краще розуміти моральні принципи, які люди можуть передати машинам, і налаштовувати їх.

Німецькі вчені з Дармштадтського технічного університету під керівництвом Крістіана Керстінга (Kristian Kersting) дослідили, який моральний вибір робитимуть алгоритми в різних контекстах. Для цього використовували Універсальний кодувальник пропозицій, штучну нейромережу типу Transformer, яка навчалася на фразах і реченнях з різних текстових джерел, таких як форуми, платформи для відповідей на запитання, сторінки новин і Вікіпедія. Кодувальник мав пропозиції в 512-мірному векторному просторі, схожому з людським асоціативним рядом: чим ближче два елементи в векторному просторі, тим тісніше вони один з одним асоційовані.

Для оцінки морального вибору використовували два стандартні пулі слів, позитивний і негативний, які застосовують у психологічних дослідженнях неявних асоціацій. У «добрий» пул увійшли такі слова, як «люблячий», «задоволення», «свобода», «сильний», а в другий пул - «образа», «агонія», «поганий», «вбивство». Алгоритм перевіряв відповідність ряду дієслів позитивному і негативному пулу за такою формулою:

Із середньої близькості в векторному просторі до кожного зі слів пулу А (позитивного) віднімається близькість до слів пулу B. Дієслова з позитивним значенням s є «хорошими», а з негативним - «поганими». Автори роботи трактували s як етичні установки - дії, які варто або не варто здійснювати.

Найбільш позитивним дієсловом виявився «радіти»; до гарного списку також потрапили слова, пов'язані зі святкуванням, подорожами, любов'ю та фізичною близькістю. До негативних слів алгоритм відніс дієслова, що відображають неналежну поведінку (наприклад, «наклепати») або злочини («вбивати»), а також неприємні слова («гноїтися», «гнити»).

Потім алгоритму ставили питання з тими ж дієслівцями в різних контекстах: наприклад, «Чи варто мені вбивати людей?» або «Чи варто мені вбивати час?». Всього використовували десять різних формулювань питань: наприклад, «Чи повинен я...?», «Чи нормально...?», «Чи хочу я...?», «Чи дозволено...?». Варіантів відповіді для кожного питання було два (наприклад, «Так, варто», «Ні, не варто»), нейромережа обчислювала близькість питання в векторному просторі до кожної з відповідей.

Коли моральний вибір алгоритму перевіряли на простих питаннях, які містили дієслово без контексту («Чи варто мені вбивати?»), вибір значимо корелював із загальною позитивністю і негативністю слова, обчисленою раніше. Зі складними питаннями результат вийшов менш однозначним. Алгоритм вирахував, що краще їсти овочі, ніж м'ясо; брехати незнайомцю, ніж своєму партнеру. Фрази з дієсловом «вбивати» нейромережа вибудувала в наступному порядку (від позитивного до негативного): «вбивати час», «вбивати вбивць», «вбивати комарів», «вбивати», «вбивати людей».

Частина рішень алгоритму були несподіваними: у список поганих дій потрапило «гнатися за істиною» і «одружуватися», а «катувати ув'язнених» виявилося дозволеним. У поганому списку виявилося як «є м'ясо», так і «бути вегетаріанцем»; крім того, алгоритм не рекомендував довіряти машинам.

Щоб пояснити результати морального вибору, логічно було б звернутися до даних, на яких алгоритм навчався, але їх немає у відкритому доступі. Автори пішли іншим шляхом і перенавчили модель на іншому корпусі текстів: книгах 16, 18 і 19 століть, новинах різних років, релігійних текстах і конституціях 193 країн (всього близько 250 мільйонів пропозицій).

У новинах 1987 і 1996-1997 років високу оцінку отримали дії «стати хорошим батьком» і «одружитися»; в новинах 2008-2009 років ці дії залишилися позитивно пофарбованими, але дещо опустилися в рейтингу, а їх місце зайняли фрази «ходити в школу/на роботу». За цей проміжок часу також знизилося позитивне забарвлення дій «є м'ясо/тваринні продукти».

Однією з найліпших дій згідно з релігійними текстами і конституціями було «ходити до церкви»; у цих джерелах важливість шлюбу вища, ніж у книгах і новинах. У всіх корпусах текстів «вбивати людей» і «красти гроші» були одними з найгірших фраз. Згідно з книгами і новинами, слід довіряти друзям, але не незнайомцям, а з релігійних текстів алгоритм уклав, що чужинцям теж потрібно довіряти. Автори статті роблять висновок, що алгоритм дійсно може витягувати етичні установки з корпусів текстів і робити вибір на їх основі.

Для того, щоб вивчати етичні питання, пов'язані з використанням штучного інтелекту в суспільстві, у компанії DeepMind існує окремий підрозділ. Однак навіть у людей вирішення етичних проблем не завжди однозначні: наприклад, у відомій «проблемі вагонетки» люди роблять різний вибір залежно від мови, якою їм пояснюють завдання. Рідною мовою людина більше керується емоціями, а іноземною - корисністю того чи іншого вибору

Етична нейромережа заборонила гнатися за істиною і дозволила катувати ув'язнених

Рулетики за 30 хвилин

Квітка з лука

Домашній святковий хліб

М'ясо в кокосовій підливі

Десерт «Малина у кольорі»

Лечо з томатним соком