Отдел новостей 11 июня 2013, 16:50

Обзор основных событий в мире Hadoop в мае 2013

В данной статье мы собрали самые интересные события, произошедшие в мире Hadoop в мае 2013. Отчет подготовлен R&D департаментом Altoros.

В этом обзоре:
• 75% компаний уровня энтерпрайз используют Hadoop для хранения данных и ETL
• Cloudera Development Kit: новый SDK для Hadoop-разработчиков
• Обзор Hadoop в трех статьях
• HDInsight может быть выпущен уже этим летом
• Обзор Hadoop дистрибутивов и инструментов
• Concurrent заключила партнерское соглашение с компанией MapR Technolodgies
• Concurrent выпустила новый вычислительный движок для machine-learning приложений
• Hadoop сыграл ведущую роль в успехе McLaren’s F1
• Вышла версия Hive 0.11.0

75% компаний уровня энтерпрайз используют Hadoop для хранения данных и ETL
В статье “Hadoop Adoption Accelerates, But Not For Data Analytics,” Matt Asay из 10gen, компании, разрабатывающей MongoDB, обращает внимание на одно важное противоречие. В то время как Hadoop широко известен как мощный инструмент для аналитики и вычислений, в реальности более 75% компаний уровня энтерпрайз используют его как хранилище данных и для ETL-операций (Extract, Transform, and Load). Тем не менее, это не говорит о том, что возможности Hadoop некорректно использовались ранее или используются сейчас. Данный факт свидетельствует о существующем положении дел на рынке. Asay также приводит доклад Matt Aslett, озвученный на Hadoop Summit в марте. Aslett считает, что переход в использовании Hadoop от хранилищ данных до аналитики в перспективе – естественный процесс. Таким образом, переход компаний, которые в настоящий момент занимаются лишь сбором данных, к тому, чтобы начать использовать все «невостребованные» возможности Hadoop – это лишь вопрос времени.

Cloudera Development Kit: новый SDK для Hadoop-разработчиков
Cloudera – провайдер ПО и сервисов, основанных на Hadoop – анонсировала Cloudera Development Kit (CDK). Это открытый проект, ориентированный на программистов, которые разрабатывают приложения, используя CDH – главный дистрибутив Hadoop, выпускаемый компанией. Проект представляет собой главным образом коллекцию библиотек, инструментов, примеров и документации – все это призвано упростить наиболее частые задачи, с которыми сталкиваются разработчики при использовании CDH-платформы. Первый релиз (версия 0.2.0) – это модуль CDK-data, которой включает в себя API для различных операций с хранилищами данных в Hadoop. Тем не менее, Cloudera заявляет, что фреймворк будет расширяться за счет включения компонентов для выполнения различных сценариев использования Hadoop. Будучи хорошо структурированным, документированным и открытым, SDK сможет соответствовать требованиям большинства разработчиков.

Обзор Hadoop в трех статьях
Jonathan Gershater выпустил серию статей, рассказывающих об основных положениях работы Hadoop и обработке больших данных. В первой статье он описывает вопросы, связанные с аналитикой огромных объемов данных, объясняет, как применяется в данном случае подход MapReduce и представляет Hadoop в качестве одного из инструментов для решения такого рода задач. Следующая статья углубляется в структуру Hadoop и базовую терминологию (такую как DataNode, Job, HDFS). Автор также вкратце перечисляет сопутствующие проекты: Apache Pig, Apache Hive, HBase, Mahout и т.д. Третья статья фокусируется на центральных компонентах Hadoop и итерации между ними. Она объясняет преимущества файловой системы HDFS перед NTFS и описывает сущность модели MapReduce, в том числе, как она реализуется внутри Hadoop с помощью job’ов.

HDInsight может быть выпущен уже этим летом
HDInsight – платформа Hadoop, разработанная Microsoft на базе Windows Azure. С марта 2013 она находилась в статусе beta и “almost ready for prime time.” Новость о возможном релизе была озвучена Andrew Brust, исполнительным директором компании Blue Badge Insights, которая предоставляет стратегические и консалтинговые услуги клиентам и партнерам Microsoft. Во время сессии Visual Studio Live! в Чикаго Andrew Brust поделился информацией о текущем статусе сервиса. Он сообщил о том, что в целом HDInsight функционирует хорошо, однако все еще имеет некоторые проблемы с запросами к большим файловым хранилищам данных. По мнению Andrew Brust, это общая проблема дистрибутивов Hadoop и «Hadoop еще не готов для энтерпрайзов».

Обзор Hadoop дистрибутивов и инструментов
Если вы представитель энтерпрайза, погрязшего в гигантских массивах неструктурированных данных, и никогда не работавшего ни с одним из Hadoop дистрибутивов, наверняка вам будет полезно ознакомиться с обзором, выполненным Timothy Prickett Morgan. В своей статье “Making Hadoop Elephants Drink From Silverlake,” редактор и автор IT Jungle дает краткое описание Amazon’s Elastic MapReduce, Microsoft’s HDInsight, Google’s BigQuery, BIME’s front-end для BigQuery и Splunk. Каждое решение описано с различных углов зрения: общая архитектура, ключевые характеристики, стоимость и т.д.

Concurrent заключила партнерское соглашение с компанией MapR Technolodgies
Компания Concurrent, известная своей популярной среди энтерпрайзов платформой для работы с большими данными, анонсировала свое партнерство с MapR Technologies, ведущим провайдером технологий Hadoop. В пресс-релизе, опубликованном 15 мая, говорится о том, что целью сделки является расширение использования Apache Hadoop среди компаний уровня энтерпрайз с помощью включения функциональности разработки MapR в Cascading framework, выпускаемого Concurrent.

Concurrent выпустила новый вычислительный движок для machine-learning приложений
21 мая, спустя 6 дней после анонсирования партнерства с MapR Technolodgies, Concurrent объявила о запуске своего нового проекта Pattern, который работает поверх Cascading framework. Это открытый, основанный на стандартах, движок, который позволяет специалистам по анализу данных и разработчикам быстро разворачивать machine-learning приложения на Apache Hadoop. С Pattern компании могут запускать свои существующие machine-learning модели на Hadoop с использованием Predictive Model Markup Language (PMML) или через программный интерфейс.

Hadoop сыграл ведущую роль в успехе McLaren’s F1
Stuart Birrell, CIO в британской McLaren Group рассказал, как компания использует результаты обработки больших данных для разработки гоночных болидов для Formula 1: дорогостоящих автомобилей, велосипедов и даже медицинского оборудования. Проанализировав «тонны» данных за последние годы, отделы McLaren – McLaren Electronic Systems, McLaren Applied Technologies, and McLaren Racing – научились извлекать пользу из больших массивов данных с помощью Hadoop и схожих технологий. Например, каждая гоночная машина оснащена более чем 160 сенсорами, которые во время гонок генерируют гигабайты необработанных данных. Эти данные в дальнейшем используются в физических моделях и тестировании, что влечет за собой поступление новых данных. Таким образом, компания постоянно находится в центре замкнутого цикла исследований, и ее автомобили могут подвергаться модифицированию каждый день или каждый час. Команда McLaren’а уверена, что такой эволюционный путь – ключ к их успеху.

Вышла версия Hive 0.11.0
Новая версия Hive, системы хранения данных для Hadoop, выпущена 15 мая. Основные возможности:
• Имплементация Optimized RC File, что позволяет увеличить скорость доступа к данным в Hive с помощью метаинформации
• Поддержка типа данных decimal
• Новые весовые функции: RANK, LEAD/LAG, ROW_NUMBER, FIRST_VALUE, LAST_VALUE и другие
• Различные оптимизации join’ов.

Это были тезисы основных новостей, касающихся Hadoop, по состоянию на конец мая 2013 года. Будьте в курсе событий вместе с нашей командой!

Оставить комментарий

Текст: Отдел новостей Теги: azure, altoros development, hadoop, big data, cloudera, hive, mapr

Нашли ошибку в тексте-выделите ее и нажмите Ctrl+Enter. Нашли ошибку в тексте-выделите ее и нажмите кнопку «Сообщить об ошибке»."

Сайт компании Вакансии

Размещение рекламы

По капле крови предсказывают оставшееся время жизни, дрон высасывает осиное гнездо. Техдайджест

Обработка больших данных: первые шаги в понимании Hadoop MapReduce и Spark

Big Data как концепт довольно понятна, но из-за того, что она включает в себя множество процессов, сложно сказать, с чего именно нужно начать изучение. Как хранятся файлы? Или как получать эти файлы? А может, сразу — как анализировать данные? О своём опыте работы с Big Data и почему Spark лучше, чем Hadoop MapReduce в обработке данных, рассказывает Эмилия Межекова, ETL-developer в Luxoft.

Microsoft упростит работу с данными в облаке Azure

Microsoft добилась рекордной выручки с 2018 года

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.

Войдите, чтобы оставить комментарий