Waymo опублікувала великий датасет для навчання безпілотних автомобілів

Компанія Waymo опублікувала великий датасет, призначений для навчання алгоритмів безпілотних автомобілів. Він містить в собі тисячу 20-секундних записів, зібраних з п'яти лідарів і п'яти камер під час реальних поїздок по чотирьох американських містах з різними умовами. Велика частина даних у датасеті розмічена і містить у собі мітки сумарно про 12 мільйонів об'єктів навколо автомобіля, повідомляється в блозі Waymo. Датасет доступний тільки для некомерційного використання.


Безпілотні автомобілі використовують безліч алгоритмів, які умовно можна розбити на два основних типи: алгоритми сприйняття середовища і алгоритми управління. Перший тип відповідає за формування в реальному часі детальної і точної картини того, що відбувається навколо автомобіля. В основному для цього використовуються нейромережеві алгоритми комп'ютерного зору, точність роботи яких безпосередньо залежить від кількості навчальних даних, причому ці дані практично неможливо з достатньою точністю створити штучно. Через це розробникам безпілотників доводиться тестувати на дорозі десятки або навіть сотні автомобілів-прототипів, які збирають великий обсяг даних про реальні ситуації на дорогах.


Waymo, що вважається одним з лідерів галузі безпілотних автомобілів, опублікувала у відкритому доступі датасет, зібраний під час тестових поїздок її автомобілів по американських містах, розташованих в штатах Каліфорнія, Арізона і Вашингтон. Датасет зібрано на основі тисячі поїздок, що розрізняються між собою погодою, часом доби, кількістю пішоходів і автомобілів навколо, а також іншими факторами. З кожної поїздки розробники вибрали найбільш репрезентативний фрагмент довжиною 20 секунд.

Дані, зібрані з кожної поїздки складаються з відеороликів з п'яти камер і хмар точок з п'яти лідарів (однієї дальньої дії і чотирьох ближніх). Для зручності подальшої обробки алгоритмами всі дані синхронізовані і сформовані у вигляді єдиних пакетів даних за кожні 0,1 секунди поїздки.

Дані розмічені і на них нанесені межі навколо об'єктів чотирьох головних типів: автомобілі, пішоходи, велосипедисти і дорожні знаки. При цьому поки розмічені тільки всі дані з лідарів, а з камер розмічено тільки сто роликів. Всього ці метадані описують 12 мільйонів об'єктів. У майбутньому компанія планує дорозмітити ці дані, а також опублікувати дані з нових поїздок.

Датасет доступний тільки для некомерційного використання, що може бути критичним для компаній, які планують використовувати свої безпілотні автомобілі в складі сервісів таксі або серійних автомобілях. Раніше Waymo під такими ж умовами почала продавати бічні лідари власної розробки.

Раніше інші дослідницькі групи і компанії вже публікували великі датасети для навчання безпілотних автомобілів. При цьому часто вони складаються тільки з даних з камер, як торішній датасет Каліфорнійського університету в Берклі, або зібрані в невеликому районі і недостатньо різноманітні, як у випадку з датасетом Ford. Найбільш схожий датасет на початку 2019 року опублікувала компанія Aptiv Autonomous Mobility. Її набір даних nuScenes також складається з тисячі 20-секундних фрагментів і містить дані з шести камер, одного лідара, п'яти радарів та інших датчиків.

COM_SPPAGEBUILDER_NO_ITEMS_FOUND