Google запустила сервіс пошуку наборів даних

Компанія Google запустила бета-версію Dataset Search - пошукового сервісу, який дозволяє знаходити набори даних - датасети - по всій мережі. Сервіс, багато в чому нагадує Google Scholar, також надає повний опис баз даних і сильно полегшує процес їх використання.


Відкриті сервіси, що надають дані, важливі для багатьох цілей: наукових досліджень, машинного навчання або систематизації інформації. Один з великих подібних сервісів, наприклад, - сайт Kag^; крім того, свої датасети зазвичай надають науково-дослідні лабораторії і великі організації, такі як Facebook.


Для того, щоб знайти релевантний датасет, однак, доводиться користуватися звичайними пошуковими системами, що може бути не дуже зручно. Google вирішила полегшити це завдання, розробивши Dataset Search - спеціалізований сервіс для пошуку датасетів по всій мережі. Він нагадує Google Scholar - сервіс компанії для пошуку наукових статей.

Особливість сервісу в тому, що для кожного датасета доступна повна інформація: дата створення бази, її розмір, короткий опис, посилання на джерело, а також кількість наукових статей, в яких датасет був використаний. Розробники сервісу прагнули до стандартизованого опису даних, запропонованих командою schema.org.

Крім технічних датасетів Dataset Search також дозволяє шукати і дані з соціальних наук. Поки що сервіс працює в бета-режимі, випробувати його можна за посиланням.

Різноманітність і обсяги використаних для навчання комп'ютерних алгоритмів даних можуть сильно вплинути на результат їх роботи. Нещодавно це добре продемонстрували вчені з MIT: вони навчили нейромережу розшифровувати плями Роршаха, а для навчання використовували цитати з теми Reddit, присвяченої розмовам про смерть. У результаті нейромережа почала видавати відповіді, що нагадують думки психопата.

COM_SPPAGEBUILDER_NO_ITEMS_FOUND