Штучний інтелект навчили уникати безвихідних ситуацій

Дослідники розробили новий метод навчання алгоритмів, який дозволяє спостерігачеві рідше скидати систему до початкового стану. Для цього вони запропонували доповнювати алгоритми планувальником, який аналізує небезпеку подальших дій, і, у разі, якщо вони можуть призвести до незворотних наслідків, повертає систему у вихідний стан, повідомляється в роботі, опублікованій на arXiv.org.


Машинне навчання дозволило в останні роки здійснити величезний прогрес у багатьох областях, наприклад, у створенні безпілотних автомобілів. Алгоритмам необхідні великі набори тренувальних даних і безліч спроб, в яких він навчається виконанню завдань в різних умовах. Такий підхід дозволяє отримувати в результаті більш ефективні алгоритми, ніж ті, чию поведінку запрограмовано «вручну», але крім великого часу навчання це має ще один недолік - нерідко алгоритм під час чергової спроби приходить у незворотний стан, і розробник повинен скинути його і середовище до вихідного стану.


Група під керівництвом Сергія Левіна (Sergey Levine) з Google Brain і Каліфорнійського університету в Берклі запропонувала навчити алгоритми самостійно вирішувати проблему перезапуску після неуспішного виконання завдання і мінімізувати кількість скидів до вихідного стану. Основа методу полягає в тому, що алгоритм навчається не тільки правильно виконувати поставлене завдання, а й повертатися з поточного стану у вихідний.

Для цього дослідники пропонують програмувати алгоритм таким чином, щоб його поведінка обумовлювалася двома компонентами: планувальником, що відповідає безпосередньо за поставлене завдання, і планувальником, який визначає, чи зможе алгоритм пройти ланцюжок дій у зворотний бік. Дія першого планувальника розглядається як безпечна тільки у випадку, якщо після нього систему можна повернути у вихідний стан. Якщо дія веде до незворотних наслідків, другий планувальник припиняє його. Якщо ж система все ж увійшла в незворотний стан, алгоритм може здійснити повне перезавантаження оточення і опиниться у вихідній позиції.

Розробники продемонстрували концепцію за допомогою простого двоногого агента, що пересувається по горизонтальній поверхні. На відео можна побачити два алгоритми: з запропонованою системою планування (праворуч) і без неї (ліворуч). Можна побачити, що перший алгоритм помічає яму перед ним і не падає в неї. Також за рахунок того, що він навчається поверненню у вихідну позицію, алгоритм самостійно повертається у вихідну позицію без необхідності втручання спостерігача.

Нещодавно розробники з Google створили алгоритм, що виконує паркур, застосувавши навчання з підкріпленням. За рахунок цього алгоритм самостійно навчився складним рухам - він став перестрибувати ями, ухилятися від перешкод зверху, а також збігати на схили і перестрибувати бар'єри.

COM_SPPAGEBUILDER_NO_ITEMS_FOUND