Перекладач Google виявився сексистом

Бразильські дослідники виявили, що алгоритми сервісу Google Translate упереджені при перекладі пропозицій з мови без граматичної категорії роду. При перекладі декількох тисяч пропозицій з 12 таких мов англійською виявилося, що технічні професії набагато рідше відносять до жінок, ніж професії у сфері охорони здоров'я. У препринті, опублікованому на arXiv, також повідомляється, що розподіл представників певної статі в професіях не відповідає реальній статистиці працевлаштування.


Вчені з Федерального університету Ріу-Гранді-ду-Сул під керівництвом Луїса Ламба (Luis Lamb) відібрали 12 мов, в яких відсутня граматична категорія роду (серед них - угорська, фінська, суахілі, йоруба, вірменська та естонська), і склали кілька пропозицій формату «X is a Y», де X - місце розташування третьої особи, а Y - професійне, виразне. У всіх обраних мовах займенник третьої особи виражається єдиним словом (гендерно-нейтральним): наприклад, в естонській і «він», і «вона» перекладається як «ta», а в угорській - «^». Обрані існуючі також були безродовими: серед них були такі професії як «лікар», «програміст» і «організатор весіль». Всього дослідники використовували 1019 професій з 22 різних категорій. Отримані пропозиції переклали англійською мовою.


Дослідники помітили, що пропозиції з невираженим родом Google Translate переводить по-різному: наприклад, фразу « egy {pol^» («він/вона медсестра/медбрат») сервіс переклав як «she is a nurse», а ось « egy tudós» («він/вона вчений») як «he is a scientist».

При роботі Google Translate вчені виявили невелике відхилення в бік певних професій: наприклад, перекладач відносив представників технічних професій до чоловічого роду в 71 відсотці випадків, а до жіночої - в чотирьох (в інших випадках - до середнього роду). При використанні професій зі сфери охорони здоров'я жіночий рід з'являвся в 23 відсотках випадків, а чоловічий - у 49.

Отриманий розподіл професій за родом займенника потім порівняли з реальними цифрами, наданими Бюро статистики праці. Виявилося, що Google Translate дійсно упереджений і не відображає реального розподілу представників у професії (принаймні в США).

Зрозуміло, расова і гендерна упередженість, яка зустрічається при роботі алгоритмів машинного навчання, виникає не з вини розробників, а через особливості навчальної вибірки. Їх, однак, також можна використовувати і на благо: наприклад, нещодавно за допомогою методу гендерного представлення слів вчені на прикладі великої кількості текстів змогли вивчити, як з плином часу змінювалося ставлення до жінок і азіатів. Тим не менш, автори справжньої роботи наполягають на використанні спеціальних алгоритмів, які зводили б подібну упередженість до мінімуму: наприклад, найпростіше - включити для безродових мов випадковий вибір займенника при перекладі.

Метод позбавлення нейромереж від сексизму минулого року запропонували американські вчені: за допомогою обмежень, які накладаються на роботу алгоритму розпізнавання зображень, упередженість можна знизити майже на 50 відсотків.

COM_SPPAGEBUILDER_NO_ITEMS_FOUND