С «большими данными» покончено. Их погубили производители. Еще приложились крупные промышленные игроки, да и СМИ раззвонили о происходящем на весь мир. Но именно на производителях лежит большая часть ответственности за мучительную и медленную смерть одной из самых переоцененных и плохо понятых концепций. Все началось с броского термина «облачные вычисления».
Любой авторитетный производитель, который предлагает новшества в области хранения и анализа информации, для большого или совсем крошечного количества данных, теперь позиционирует себя как специалист по «большим данным», даже если технологически решение осталось таким же, как и пять лет назад (спасибо маркетинговым отделам!). Стартапы также не отстают и претендуют на гордое имя «приложения для больших данных» или «стартапа больших данных». Все хотят урвать кусочек тех огромных денег, которые крутятся в венчурных компаниях, финансирующих проекты из области Больших Данных. Поэтому нынешнее выражение «большие данные» уже практически лишено смысла. Для тех же, кто довольно долго работает в сфере высоких технологий, само упоминание этой фразы вызывает характерную головную боль, после которой хочется принять большую парацетамолину. (Примечание редактора: точнее не скажешь!)
Посудите сами, с каким отторжением, час от часу нарастающим, воспринимается этот термин:
-
«Каждый раз, когда СМИ начинают обсасывать термин, он превращается из информативного в избитый, а потом и в никчемный. „Большие данные“ – один из таких терминов…» (Роджер Эренберг).
-
«Каждый продукт каждого производителя поддерживает большие данные… и каждый „крупный игрок“ старается включать это выражение в название всех своих докладов, а потом повторять его как можно чаще. Получается, что любое выступление о хранилище данных переписывается в речь о „больших данных“. Управление данными, управление нормативно-справочной информацией, аналитическая обработка данных в реальном времени, интеллектуальный анализ данных – все это теперь „Большие Данные“» (Роб Клопп).
-
«Большие данные как технологическая категория постепенно становится пустым звуком» (Барри Девлин).
Покойтесь с миром, «большие данные»
Итак, после гибели «больших данных» нам остается просто жить дальше. В контексте самих данных это означает, что мы можем перестать заморачиваться об объеме, разнообразии, скорости, достоверности и правдоподобии информации (просто сложите ее в Hadoop). Зато можно заняться улучшением основополагающих показателей, достижимых при помощи таланта, инструментов и технологий, которые постепенно становятся частью мейнстрима.
Когда индустрия данных окрепнет, наименование «большие данные» будет заменено не одним, а сразу несколькими терминами. Различные инструменты и технологии станут занимать отдельные ниши. Каждая из этих технологий станет в большей степени узкоспециализированной и адресной, чем понятие «большие данные», которые теперь «любой бочке затычка».
Я расскажу о нескольких нишах, которые все чаще будут на слуху. Увы, некоторым из перечисленных понятий предстоит превращение в пустые слова, как и «большим данным». Ведь термин можно так накачать смыслами, что никакого смысла в нем не останется. Но пока давайте заглянем в ближайшее будущее сферы хранения, обработки и анализа данных.
Умный жаргон – 2013
Я вижу шесть различных аспектов данных, которые будут активно обсуждаться в 2013 году. Каждый из приведенных терминов довольно информативен и затрагивает определенные слои и практические возможности, относящиеся к области «больших данных».
Smart Data?
Различные крупные промышленные игроки, авторы, докладчики и интервьюеры (см. тут, тут, тут, тут, тут, тут и тут) начинают использовать термин «Smart Data» для описания все более распространенного способа применения «больших данных». Этот способ заключается в коммерческом внедрении длительно хранимых данных, которые используются в прогностическом анализе. В сущности, компании выходят за пределы бизнес-аналитики. Последняя основана на работе специалистов, которые занимаются интерпретацией данных, а современные компании пытаются монетизировать огромные объемы автоматически собираемых данных при помощи прогностического анализа (он опирается на сложные статистические технологии и машинное обучение, помогающие распознавать закономерности и использовать их). Такая прогностическая аналитика все чаще рассматривается как источник дохода. Создаваемые продукты включают такие интеллектуальные возможности, как обнаружение мошенничества, рекомендации, персонализация, таргетинг и многие другие. Среди компаний, которые активно используют «умные данные», следует назвать Netflix, Amazon, RichRevelance, Gravity, Linkedin, SailThru и другие.
Data Science?
Data Science – это новая область знаний, использующая высокие технологии статистики, машинного обучения, обработки естественного языка и информатики для извлечения смысла из больших объемов данных (иногда это делается для создания новых информационных продуктов – пожалуй, именно для этого и была создана наука о данных). Этот термин по-прежнему довольно точен, но им уже начинают злоупотреблять компании, так как понятие пользуется бешеной популярностью. Например, Metamarkets спекулирует достоинствами своей «Data Science платформы», хотя в ее основе лежит обычный агрегатор, выполняющий продольные и поперечные срезы данных. Тем временем, стоит кому-то выучить SQL и MicroStrategy – и он уже именует себя «специалистом по Data Science». Боюсь, что этот термин может пасть жертвой собственного успеха и разделить участь «больших данных».
NewSQL?
NewSQL – это расхожее название, которым именуются горизонтально распределенные SQL-системы, допускающие значительное масштабирование. Drawntoscale, VoltDB, SpliceMachine, SQLFire, Impala, Redshift, Clustrix, NuoDB и Hadapt – вот лишь некоторые решения, которые объединяют масштабируемость платформ NoSQL с возможностями языка SQL и костяком ACID-гарантий, действующих в устаревающих реляционных базах данных. Появление NewSQL не означает гибели NoSQL. Из этого всего лишь следует, что компании, которые стремятся добиться масштабируемости систем и желающие обходиться SQL, получат такую возможность.
Многие компании и далее будут использовать системы NoSQL, поскольку такие системы поддерживают работу с нереляционными данными и обеспечивают более высокую производительность (так как не зависят от ACID-гарантий).
Прогностический анализ (Predictive Analysis)?
Прогностическая аналитика много лет оставалась довольно смутной областью, но вот теперь ситуация, похоже, начинает проясняться. Прогностический анализ послужил основой как для Data Science, так и для Smart Data. На самом деле он является лишь обратной стороной исторического анализа и использует исторические данные для прогнозирования будущего. А если вы умеете предсказывать будущее, то сможете и изменить его.
Действительно, прогностический анализ применяется повсюду: от рекомендательных движков (предлагающих посетителю варианты, которые, скорее всего, его заинтересуют) до обнаружения мошенничества. Этот анализ применяется даже для определения тех, кто из досрочно освобожденных вероятнее всего станет рецидивистом. В этой области задействуются методы статистики, машинного обучения, моделирования и других технологий, связанных с распознаванием и использованием закономерностей.
Некоторые тенденции не попали в этот список, но заслуживают хотя бы упоминания. Это, в частности, потоковая обработка и потоковая аналитика, обработка естественного языка (последняя уверенно становится мейнстримовой технологией благодаря немногочисленным компаниям, занимающихся ею в промышленных масштабах (например, AlchemyAPI)), интеллектуальный анализ изображений и видео (в частности, обнаружение лиц, жестов и эмоций), машинное обучение, хранение данных в оперативной памяти (in-memorystorage), грид-вычисления и графоориентированные базы данных. Эти технологии открывают совершенно новые способы решения проблем, связанных с анализом данных.
Жизнь после «больших данных»
Итак, золотые времена для термина «большие данные» прошли. Многие проблемы, при решении которых появилось это понятие, по-прежнему актуальны, но хранение практически неограниченных объемов сложноструктурированных данных – это уже не новинка, и даже не слишком интересная сфера.
Более того, из-за тиражирования этого термина в среде производителей и злоупотребления им «большие данные» мало-помалу становятся пустым звуком.
Постепенное усложнение хранения, обработки и использования данных означает, что мы, вероятно, не сможем заменить выражение «большие данные» неким одним термином. Напротив, нас ждет постепенное развитие наиболее востребованных на практике областей, в которых будет создаваться более строгая и точная терминология.
Добро пожаловать в эру «после больших данных». Поверьте, жить в ней будет очень интересно!
Джон Эй де Гоус занимает пост CEO в компании Precog, стремящейся упростить разработку и развертывание сложных аналитических решений. Джон основал Precog после долгой и напряженной работы над решением проблем в сфере больших данных, которой он занимался в компаниях VPEngineering и LivingSocial.
Де Гоус – квалифицированный и популярный автор технологической литературы, также он активно участвует в свободных разработках. Джон более десяти лет посвятил проектированию и разработке распределенных систем.
‘Big data’ is dead. What’s next?
Джон Де Гоус
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.