Дослідники розробили новий метод навчання алгоритмів, який дозволяє спостерігачеві рідше скидати систему до початкового стану. Для цього вони запропонували доповнювати алгоритми планувальником, який аналізує небезпеку подальших дій, і, у разі, якщо вони можуть призвести до незворотних наслідків, повертає систему у вихідний стан, повідомляється в роботі, опублікованій на arXiv.org.
Машинне навчання дозволило в останні роки здійснити величезний прогрес у багатьох областях, наприклад, у створенні безпілотних автомобілів. Алгоритмам необхідні великі набори тренувальних даних і безліч спроб, в яких він навчається виконанню завдань в різних умовах. Такий підхід дозволяє отримувати в результаті більш ефективні алгоритми, ніж ті, чию поведінку запрограмовано «вручну», але крім великого часу навчання це має ще один недолік - нерідко алгоритм під час чергової спроби приходить у незворотний стан, і розробник повинен скинути його і середовище до вихідного стану.
Група під керівництвом Сергія Левіна (Sergey Levine) з Google Brain і Каліфорнійського університету в Берклі запропонувала навчити алгоритми самостійно вирішувати проблему перезапуску після неуспішного виконання завдання і мінімізувати кількість скидів до вихідного стану. Основа методу полягає в тому, що алгоритм навчається не тільки правильно виконувати поставлене завдання, а й повертатися з поточного стану у вихідний.
Для цього дослідники пропонують програмувати алгоритм таким чином, щоб його поведінка обумовлювалася двома компонентами: планувальником, що відповідає безпосередньо за поставлене завдання, і планувальником, який визначає, чи зможе алгоритм пройти ланцюжок дій у зворотний бік. Дія першого планувальника розглядається як безпечна тільки у випадку, якщо після нього систему можна повернути у вихідний стан. Якщо дія веде до незворотних наслідків, другий планувальник припиняє його. Якщо ж система все ж увійшла в незворотний стан, алгоритм може здійснити повне перезавантаження оточення і опиниться у вихідній позиції.
Розробники продемонстрували концепцію за допомогою простого двоногого агента, що пересувається по горизонтальній поверхні. На відео можна побачити два алгоритми: з запропонованою системою планування (праворуч) і без неї (ліворуч). Можна побачити, що перший алгоритм помічає яму перед ним і не падає в неї. Також за рахунок того, що він навчається поверненню у вихідну позицію, алгоритм самостійно повертається у вихідну позицію без необхідності втручання спостерігача.
Нещодавно розробники з Google створили алгоритм, що виконує паркур, застосувавши навчання з підкріпленням. За рахунок цього алгоритм самостійно навчився складним рухам - він став перестрибувати ями, ухилятися від перешкод зверху, а також збігати на схили і перестрибувати бар'єри.