Google допоможе The New York Times оцифрувати п'ять мільйонів архівних фотографій

Платформа Google Cloud разом з The New York Times оцифрують понад п'ять мільйонів зображень, що зберігаються в архівах газети. Вручну відскановане фотографія, а також інформація, записана на її зворотному боці, відправлятимуться в хмарний сервіс для подальшого оцифрування і розпізнавання тексту і зображення. На підставі цього розробники планують створити цілу бібліотеку знімків. Детально про проект повідомляється в блозі Google.


В архівах The New York Times (газета називає їх «моргом») зберігаються, за різними оцінками, від п'яти до семи мільйонів знімків, використаних виданням у своїх номерах майже за весь час свого існування (тобто з середини XIX століття). Знімки організовані у вигляді бібліотеки: у архіві є каталог, за допомогою якого можна знайти потрібну фотографію. На зворотному боці деяких знімків також міститься інформація про зроблену фотографію і навіть дані про те, в якому номері газети вона з'явилася.


Незважаючи на те, що каталог дозволяє досить швидко знайти потрібний знімок, це не дуже зручно, особливо - для тих, у кого немає прямого доступу до архівів газети. Спеціально для цього видання вирішило оцифрувати архівні зображення із залученням хмарного сервісу Google Cloud: крім сканування самих фотографій система також розпізнає додаткову інформацію, яка може бути записана на зворотному боці знімка.

Відкриті технології Google Cloud дозволять The New York Times полегшити процес оцифрування знімків: для цього будуть використовуватися відкриті алгоритми на зразок Cloud Vision API, який використовується для розпізнавання зображень.

Нещодавно Гарвардський університет закінчив роботу над Caselow Access Project, в ході якого були відскановані і оцифровані понад 40 мільйонів сторінок юридичних документів починаючи з XVII століття. Всього в базу даних потрапили приблизно 6,4 мільйона судових справ.

COM_SPPAGEBUILDER_NO_ITEMS_FOUND