В рамках программы Labs Webscope компания Yahoo открыла для всех желающих крупнейший массив данных в области машинного обучения. Его объём измеряется колоссальными 13,5 ТБ и включает анонимные данные пользовательского взаимодействия, пишет TechCrunch.
Программа Yahoo Webscope не нова и уже предлагает ряд массивов данных для некоммерческого использования. Тем не менее, массив объёмом 13,5 ТБ является крупнейшим на сегодняшний день.
В частности, он содержит интеракции около 20 млн пользователей с февраля по май 2015 года, в том числе те, которые происходили на главной странице Yahoo и в разделах Yahoo News, Yahoo Sports, Yahoo Finance, Yahoo Real Estate. База данных может быть использована в широком спектре исследований в области машинного обучения, искусственного интеллекта, поиска информации, приложений больших данных и других.
«Данные — это жизненная сила исследований в области машинного обучения, — объясняет Суджу Раджан (Suju Rajan), глава Personalization Science в Yahoo Labs. — Тем не менее, доступ к поистине масштабным массивам данных — это привилегия, которая традиционно зарезервирована для исследователей и учёных, работающих в крупных компаниях, и находится вне досягаемости для большинства академических исследователей».
По мнению представителя Yahoo, такой расклад может помешать инновациям и замедлить прогресс. Кроме того, открывая крупнейший массив данных для всех желающих, Yahoo пытается внести свой вклад в восстановление баланса между между промышленными и научными исследованиями.
Впрочем, безусловно, это не совсем альтруистический ход: если темпы развития инноваций будут ускорены, это также пойдёт на пользу самой компании, дав ей возможность применять новейшие разработки для собственных продуктов.
Напомним, в 2015-м крупнейшие ИT-компании и исследовательские лаборатории продолжили разработки в области искусственного интеллекта и машинного обучения, причём не только чисто научные. Google сделала свою систему машинного обучения TensorFlow открытой для всех желающих. Эта система помогает решать такие задачи как распознавание речи, «умный» поиск снимков в облачном сервисе, автоматические ответы в почте и продвинутое формирование выдачи по нетипичным запросам в интернет-поисковике. Microsoft вслед за Google открыла код среды для машинного обучения. Другие значимые названия в этом перечне — IBM Watson, Amazon Machine Learning и Azure Machine Learning.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.