Хотите дальше читать devby? 📝
Support us

С «большими данными» покончено. Что дальше?

Оставить комментарий
С «большими данными» покончено. Что дальше?

С «большими данными» покончено. Их погубили производители. Еще приложились крупные промышленные игроки, да и СМИ раззвонили о происходящем на весь мир. Но именно на производителях лежит большая часть ответственности за мучительную и медленную смерть одной из самых переоцененных и плохо понятых концепций. Все началось с броского термина «облачные вычисления».

читать дальше

Любой авторитетный производитель, который предлагает новшества в области хранения и анализа информации, для большого или совсем крошечного количества данных, теперь позиционирует себя как специалист по «большим данным», даже если технологически решение осталось таким же, как и пять лет назад (спасибо маркетинговым отделам!). Стартапы также не отстают и претендуют на гордое имя «приложения для больших данных» или «стартапа больших данных». Все хотят урвать кусочек тех огромных денег, которые крутятся в венчурных компаниях, финансирующих проекты из области Больших Данных. Поэтому нынешнее выражение «большие данные» уже практически лишено смысла. Для тех же, кто довольно долго работает в сфере высоких технологий, само упоминание этой фразы вызывает характерную головную боль, после которой хочется принять большую парацетамолину. (Примечание редактора: точнее не скажешь!)

Посудите сами, с каким отторжением, час от часу нарастающим, воспринимается этот термин:

  • «Каждый раз, когда СМИ начинают обсасывать термин, он превращается из информативного в избитый, а потом и в никчемный. „Большие данные“ – один из таких терминов…» (Роджер Эренберг).

  • «Каждый продукт каждого производителя поддерживает большие данные… и каждый „крупный игрок“ старается включать это выражение в название всех своих докладов, а потом повторять его как можно чаще. Получается, что любое выступление о хранилище данных переписывается в речь о „больших данных“. Управление данными, управление нормативно-справочной информацией, аналитическая обработка данных в реальном времени, интеллектуальный анализ данных – все это теперь „Большие Данные“» (Роб Клопп).

  • «Большие данные как технологическая категория постепенно становится пустым звуком» (Барри Девлин).

Покойтесь с миром, «большие данные»

Итак, после гибели «больших данных» нам остается просто жить дальше. В контексте самих данных это означает, что мы можем перестать заморачиваться об объеме, разнообразии, скорости, достоверности и правдоподобии информации (просто сложите ее в Hadoop). Зато можно заняться улучшением основополагающих показателей, достижимых при помощи таланта, инструментов и технологий, которые постепенно становятся частью мейнстрима.

Когда индустрия данных окрепнет, наименование «большие данные» будет заменено не одним, а сразу несколькими терминами. Различные инструменты и технологии станут занимать отдельные ниши. Каждая из этих технологий станет в большей степени узкоспециализированной и адресной, чем понятие «большие данные», которые теперь «любой бочке затычка».

Я расскажу о нескольких нишах, которые все чаще будут на слуху. Увы, некоторым из перечисленных понятий предстоит превращение в пустые слова, как и «большим данным». Ведь термин можно так накачать смыслами, что никакого смысла в нем не останется. Но пока давайте заглянем в ближайшее будущее сферы хранения, обработки и анализа данных.

Умный жаргон – 2013

Я вижу шесть различных аспектов данных, которые будут активно обсуждаться в 2013 году. Каждый из приведенных терминов довольно информативен и затрагивает определенные слои и практические возможности, относящиеся к области «больших данных».

Smart Data?

Различные крупные промышленные игроки, авторы, докладчики и интервьюеры (см. тут, тут, тут, тут, тут, тут и тут) начинают использовать термин «Smart Data» для описания все более распространенного способа применения «больших данных». Этот способ заключается в коммерческом внедрении длительно хранимых данных, которые используются в прогностическом анализе. В сущности, компании выходят за пределы бизнес-аналитики. Последняя основана на работе специалистов, которые занимаются интерпретацией данных, а современные компании пытаются монетизировать огромные объемы автоматически собираемых данных при помощи прогностического анализа (он опирается на сложные статистические технологии и машинное обучение, помогающие распознавать закономерности и использовать их). Такая прогностическая аналитика все чаще рассматривается как источник дохода. Создаваемые продукты включают такие интеллектуальные возможности, как обнаружение мошенничества, рекомендации, персонализация, таргетинг и многие другие. Среди компаний, которые активно используют «умные данные», следует назвать Netflix, Amazon, RichRevelance, Gravity, Linkedin, SailThru и другие.

Data Science?

Data Science – это новая область знаний, использующая высокие технологии статистики, машинного обучения, обработки естественного языка и информатики для извлечения смысла из больших объемов данных (иногда это делается для создания новых информационных продуктов – пожалуй, именно для этого и была создана наука о данных). Этот термин по-прежнему довольно точен, но им уже начинают злоупотреблять компании, так как понятие пользуется бешеной популярностью. Например, Metamarkets спекулирует достоинствами своей «Data Science платформы», хотя в ее основе лежит обычный агрегатор, выполняющий продольные и поперечные срезы данных. Тем временем, стоит кому-то выучить SQL и MicroStrategy – и он уже именует себя «специалистом по Data Science». Боюсь, что этот термин может пасть жертвой собственного успеха и разделить участь «больших данных».

NewSQL?

NewSQL – это расхожее название, которым именуются горизонтально распределенные SQL-системы, допускающие значительное масштабирование. Drawntoscale, VoltDB, SpliceMachine, SQLFire, Impala, Redshift, Clustrix, NuoDB и Hadapt – вот лишь некоторые решения, которые объединяют масштабируемость платформ NoSQL с возможностями языка SQL и костяком ACID-гарантий, действующих в устаревающих реляционных базах данных. Появление NewSQL не означает гибели NoSQL. Из этого всего лишь следует, что компании, которые стремятся добиться масштабируемости систем и желающие обходиться SQL, получат такую возможность.

Многие компании и далее будут использовать системы NoSQL, поскольку такие системы поддерживают работу с нереляционными данными и обеспечивают более высокую производительность (так как не зависят от ACID-гарантий).

Прогностический анализ (Predictive Analysis)?

Прогностическая аналитика много лет оставалась довольно смутной областью, но вот теперь ситуация, похоже, начинает проясняться. Прогностический анализ послужил основой как для Data Science, так и для Smart Data. На самом деле он является лишь обратной стороной исторического анализа и использует исторические данные для прогнозирования будущего. А если вы умеете предсказывать будущее, то сможете и изменить его.

Действительно, прогностический анализ применяется повсюду: от рекомендательных движков (предлагающих посетителю варианты, которые, скорее всего, его заинтересуют) до обнаружения мошенничества. Этот анализ применяется даже для определения тех, кто из досрочно освобожденных вероятнее всего станет рецидивистом. В этой области задействуются методы статистики, машинного обучения, моделирования и других технологий, связанных с распознаванием и использованием закономерностей.

Некоторые тенденции не попали в этот список, но заслуживают хотя бы упоминания. Это, в частности, потоковая обработка и потоковая аналитика, обработка естественного языка (последняя уверенно становится мейнстримовой технологией благодаря немногочисленным компаниям, занимающихся ею в промышленных масштабах (например, AlchemyAPI)), интеллектуальный анализ изображений и видео (в частности, обнаружение лиц, жестов и эмоций), машинное обучение, хранение данных в оперативной памяти (in-memorystorage), грид-вычисления и графоориентированные базы данных. Эти технологии открывают совершенно новые способы решения проблем, связанных с анализом данных.

Жизнь после «больших данных»

Итак, золотые времена для термина «большие данные» прошли. Многие проблемы, при решении которых появилось это понятие, по-прежнему актуальны, но хранение практически неограниченных объемов сложноструктурированных данных – это уже не новинка, и даже не слишком интересная сфера.

Более того, из-за тиражирования этого термина в среде производителей и злоупотребления им «большие данные» мало-помалу становятся пустым звуком.

Постепенное усложнение хранения, обработки и использования данных означает, что мы, вероятно, не сможем заменить выражение «большие данные» неким одним термином. Напротив, нас ждет постепенное развитие наиболее востребованных на практике областей, в которых будет создаваться более строгая и точная терминология.

Добро пожаловать в эру «после больших данных». Поверьте, жить в ней будет очень интересно!

Джон Эй де Гоус занимает пост CEO в компании Precog, стремящейся упростить разработку и развертывание сложных аналитических решений. Джон основал Precog после долгой и напряженной работы над решением проблем в сфере больших данных, которой он занимался в компаниях VPEngineering и LivingSocial.

 

Де Гоус – квалифицированный и популярный автор технологической литературы, также он активно участвует в свободных разработках. Джон более десяти лет посвятил проектированию и разработке распределенных систем.

 

‘Big data’ is dead. What’s next?
Джон Де Гоус

Помогаете devby = помогаете ИТ-комьюнити.

Засапортить сейчас.

Читайте также
По капле крови предсказывают оставшееся время жизни, дрон высасывает осиное гнездо. Техдайджест
По капле крови предсказывают оставшееся время жизни, дрон высасывает осиное гнездо. Техдайджест
По капле крови предсказывают оставшееся время жизни, дрон высасывает осиное гнездо. Техдайджест
Обработка больших данных: первые шаги в понимании Hadoop MapReduce и Spark
Обработка больших данных: первые шаги в понимании Hadoop MapReduce и Spark
Обработка больших данных: первые шаги в понимании Hadoop MapReduce и Spark
Big Data как концепт довольно понятна, но из-за того, что она включает в себя множество процессов, сложно сказать, с чего именно нужно начать изучение. Как хранятся файлы? Или как получать эти файлы? А может, сразу — как анализировать данные? О своём опыте работы с Big Data и почему Spark лучше, чем Hadoop MapReduce в обработке данных, рассказывает Эмилия Межекова, ETL-developer в Luxoft.
Vertica увеличивает скорость обработки запросов в 50–100 раз. Подробно о хранилище данных
Vertica увеличивает скорость обработки запросов в 50–100 раз. Подробно о хранилище данных
Vertica увеличивает скорость обработки запросов в 50–100 раз. Подробно о хранилище данных
В марте 2021 года дистрибуционный холдинг ERC объявил о расширении контракта с крупнейшим разработчиком программного обеспечения — компанией Micro Focus в Беларуси, других странах СНГ, а также в Украине и Грузии (Сакартвело) по технологическому решению Vertica.
Топ главных ИТ-специальностей и ИТ-навыков в 2021 году
Топ главных ИТ-специальностей и ИТ-навыков в 2021 году
Топ главных ИТ-специальностей и ИТ-навыков в 2021 году
Dice Insights ежегодно составляет перечень технологических профессий, которые ждёт рост или спад популярности в ближайшие 12 месяцев. За основу берут прогнозы консалтинговой компании Foote Partners. К примеру, в прошлом году оказались точны предсказания её аналитиков по большим данным, AI и опыту в кибербезопасности, востребованность которых увеличилась сильнее ожидаемого на фоне массового перехода на удалёнку.

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.