Отдел новостей 6 марта 2013, 13:22

С «большими данными» покончено. Что дальше?

С «большими данными» покончено. Их погубили производители. Еще приложились крупные промышленные игроки, да и СМИ раззвонили о происходящем на весь мир. Но именно на производителях лежит большая часть ответственности за мучительную и медленную смерть одной из самых переоцененных и плохо понятых концепций. Все началось с броского термина «облачные вычисления».

Любой авторитетный производитель, который предлагает новшества в области хранения и анализа информации, для большого или совсем крошечного количества данных, теперь позиционирует себя как специалист по «большим данным», даже если технологически решение осталось таким же, как и пять лет назад (спасибо маркетинговым отделам!). Стартапы также не отстают и претендуют на гордое имя «приложения для больших данных» или «стартапа больших данных». Все хотят урвать кусочек тех огромных денег, которые крутятся в венчурных компаниях, финансирующих проекты из области Больших Данных. Поэтому нынешнее выражение «большие данные» уже практически лишено смысла. Для тех же, кто довольно долго работает в сфере высоких технологий, само упоминание этой фразы вызывает характерную головную боль, после которой хочется принять большую парацетамолину. (Примечание редактора: точнее не скажешь!)

Посудите сами, с каким отторжением, час от часу нарастающим, воспринимается этот термин:

«Каждый раз, когда СМИ начинают обсасывать термин, он превращается из информативного в избитый, а потом и в никчемный. „Большие данные“ – один из таких терминов…» (Роджер Эренберг).
«Каждый продукт каждого производителя поддерживает большие данные… и каждый „крупный игрок“ старается включать это выражение в название всех своих докладов, а потом повторять его как можно чаще. Получается, что любое выступление о хранилище данных переписывается в речь о „больших данных“. Управление данными, управление нормативно-справочной информацией, аналитическая обработка данных в реальном времени, интеллектуальный анализ данных – все это теперь „Большие Данные“» (Роб Клопп).
«Большие данные как технологическая категория постепенно становится пустым звуком» (Барри Девлин).

Покойтесь с миром, «большие данные»

Итак, после гибели «больших данных» нам остается просто жить дальше. В контексте самих данных это означает, что мы можем перестать заморачиваться об объеме, разнообразии, скорости, достоверности и правдоподобии информации (просто сложите ее в Hadoop). Зато можно заняться улучшением основополагающих показателей, достижимых при помощи таланта, инструментов и технологий, которые постепенно становятся частью мейнстрима.

Когда индустрия данных окрепнет, наименование «большие данные» будет заменено не одним, а сразу несколькими терминами. Различные инструменты и технологии станут занимать отдельные ниши. Каждая из этих технологий станет в большей степени узкоспециализированной и адресной, чем понятие «большие данные», которые теперь «любой бочке затычка».

Я расскажу о нескольких нишах, которые все чаще будут на слуху. Увы, некоторым из перечисленных понятий предстоит превращение в пустые слова, как и «большим данным». Ведь термин можно так накачать смыслами, что никакого смысла в нем не останется. Но пока давайте заглянем в ближайшее будущее сферы хранения, обработки и анализа данных.

Умный жаргон – 2013

Я вижу шесть различных аспектов данных, которые будут активно обсуждаться в 2013 году. Каждый из приведенных терминов довольно информативен и затрагивает определенные слои и практические возможности, относящиеся к области «больших данных».

Smart Data?

Различные крупные промышленные игроки, авторы, докладчики и интервьюеры (см. тут, тут, тут, тут, тут, тут и тут) начинают использовать термин «Smart Data» для описания все более распространенного способа применения «больших данных». Этот способ заключается в коммерческом внедрении длительно хранимых данных, которые используются в прогностическом анализе. В сущности, компании выходят за пределы бизнес-аналитики. Последняя основана на работе специалистов, которые занимаются интерпретацией данных, а современные компании пытаются монетизировать огромные объемы автоматически собираемых данных при помощи прогностического анализа (он опирается на сложные статистические технологии и машинное обучение, помогающие распознавать закономерности и использовать их). Такая прогностическая аналитика все чаще рассматривается как источник дохода. Создаваемые продукты включают такие интеллектуальные возможности, как обнаружение мошенничества, рекомендации, персонализация, таргетинг и многие другие. Среди компаний, которые активно используют «умные данные», следует назвать Netflix, Amazon, RichRevelance, Gravity, Linkedin, SailThru и другие.

Data Science?

Data Science – это новая область знаний, использующая высокие технологии статистики, машинного обучения, обработки естественного языка и информатики для извлечения смысла из больших объемов данных (иногда это делается для создания новых информационных продуктов – пожалуй, именно для этого и была создана наука о данных). Этот термин по-прежнему довольно точен, но им уже начинают злоупотреблять компании, так как понятие пользуется бешеной популярностью. Например, Metamarkets спекулирует достоинствами своей «Data Science платформы», хотя в ее основе лежит обычный агрегатор, выполняющий продольные и поперечные срезы данных. Тем временем, стоит кому-то выучить SQL и MicroStrategy – и он уже именует себя «специалистом по Data Science». Боюсь, что этот термин может пасть жертвой собственного успеха и разделить участь «больших данных».

NewSQL?

NewSQL – это расхожее название, которым именуются горизонтально распределенные SQL-системы, допускающие значительное масштабирование. Drawntoscale, VoltDB, SpliceMachine, SQLFire, Impala, Redshift, Clustrix, NuoDB и Hadapt – вот лишь некоторые решения, которые объединяют масштабируемость платформ NoSQL с возможностями языка SQL и костяком ACID-гарантий, действующих в устаревающих реляционных базах данных. Появление NewSQL не означает гибели NoSQL. Из этого всего лишь следует, что компании, которые стремятся добиться масштабируемости систем и желающие обходиться SQL, получат такую возможность.

Многие компании и далее будут использовать системы NoSQL, поскольку такие системы поддерживают работу с нереляционными данными и обеспечивают более высокую производительность (так как не зависят от ACID-гарантий).

Прогностический анализ (Predictive Analysis)?

Прогностическая аналитика много лет оставалась довольно смутной областью, но вот теперь ситуация, похоже, начинает проясняться. Прогностический анализ послужил основой как для Data Science, так и для Smart Data. На самом деле он является лишь обратной стороной исторического анализа и использует исторические данные для прогнозирования будущего. А если вы умеете предсказывать будущее, то сможете и изменить его.

Действительно, прогностический анализ применяется повсюду: от рекомендательных движков (предлагающих посетителю варианты, которые, скорее всего, его заинтересуют) до обнаружения мошенничества. Этот анализ применяется даже для определения тех, кто из досрочно освобожденных вероятнее всего станет рецидивистом. В этой области задействуются методы статистики, машинного обучения, моделирования и других технологий, связанных с распознаванием и использованием закономерностей.

Некоторые тенденции не попали в этот список, но заслуживают хотя бы упоминания. Это, в частности, потоковая обработка и потоковая аналитика, обработка естественного языка (последняя уверенно становится мейнстримовой технологией благодаря немногочисленным компаниям, занимающихся ею в промышленных масштабах (например, AlchemyAPI)), интеллектуальный анализ изображений и видео (в частности, обнаружение лиц, жестов и эмоций), машинное обучение, хранение данных в оперативной памяти (in-memorystorage), грид-вычисления и графоориентированные базы данных. Эти технологии открывают совершенно новые способы решения проблем, связанных с анализом данных.

Жизнь после «больших данных»

Итак, золотые времена для термина «большие данные» прошли. Многие проблемы, при решении которых появилось это понятие, по-прежнему актуальны, но хранение практически неограниченных объемов сложноструктурированных данных – это уже не новинка, и даже не слишком интересная сфера.

Более того, из-за тиражирования этого термина в среде производителей и злоупотребления им «большие данные» мало-помалу становятся пустым звуком.

Постепенное усложнение хранения, обработки и использования данных означает, что мы, вероятно, не сможем заменить выражение «большие данные» неким одним термином. Напротив, нас ждет постепенное развитие наиболее востребованных на практике областей, в которых будет создаваться более строгая и точная терминология.

Добро пожаловать в эру «после больших данных». Поверьте, жить в ней будет очень интересно!

Джон Эй де Гоус занимает пост CEO в компании Precog, стремящейся упростить разработку и развертывание сложных аналитических решений. Джон основал Precog после долгой и напряженной работы над решением проблем в сфере больших данных, которой он занимался в компаниях VPEngineering и LivingSocial.

Де Гоус – квалифицированный и популярный автор технологической литературы, также он активно участвует в свободных разработках. Джон более десяти лет посвятил проектированию и разработке распределенных систем.

‘Big data’ is dead. What’s next?
Джон Де Гоус

Оставить комментарий

Текст: Отдел новостей Теги: big data

Нашли ошибку в тексте-выделите ее и нажмите Ctrl+Enter. Нашли ошибку в тексте-выделите ее и нажмите кнопку «Сообщить об ошибке»."

Сайт компании Вакансии

Размещение рекламы

По капле крови предсказывают оставшееся время жизни, дрон высасывает осиное гнездо. Техдайджест

Обработка больших данных: первые шаги в понимании Hadoop MapReduce и Spark

Big Data как концепт довольно понятна, но из-за того, что она включает в себя множество процессов, сложно сказать, с чего именно нужно начать изучение. Как хранятся файлы? Или как получать эти файлы? А может, сразу — как анализировать данные? О своём опыте работы с Big Data и почему Spark лучше, чем Hadoop MapReduce в обработке данных, рассказывает Эмилия Межекова, ETL-developer в Luxoft.

Vertica увеличивает скорость обработки запросов в 50–100 раз. Подробно о хранилище данных

В марте 2021 года дистрибуционный холдинг ERC объявил о расширении контракта с крупнейшим разработчиком программного обеспечения — компанией Micro Focus в Беларуси, других странах СНГ, а также в Украине и Грузии (Сакартвело) по технологическому решению Vertica.

Топ главных ИТ-специальностей и ИТ-навыков в 2021 году

Dice Insights ежегодно составляет перечень технологических профессий, которые ждёт рост или спад популярности в ближайшие 12 месяцев. За основу берут прогнозы консалтинговой компании Foote Partners. К примеру, в прошлом году оказались точны предсказания её аналитиков по большим данным, AI и опыту в кибербезопасности, востребованность которых увеличилась сильнее ожидаемого на фоне массового перехода на удалёнку.

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.

Войдите, чтобы оставить комментарий