Big Data Strategy в Минске. Презентации докладов

31 июля 2014, 14:01

25 июля в Национальной библиотеке прошла конференция Big Data Strategy. Как понятно из её названия, посвящена она была практическому применению больших данных, методах и приемах работы с ними. Казалось бы, не самая популярная тема для ивентов среди белорусских разработчиков да ещё и в разгар отпускного сезона, тем не менее, довольно много специалистов нашли время для самообразования и полезного общения с коллегами.

о чём говорили на конференции

В приветственном слове докладчик и представитель одной из компаний-организаторов Adform Dionizas Antipenkovas признал, что проводимый в Минске ивент – это второй блин компании (первая конференция с этой же тематикой была организована ими в этом мае в Вильнюсе), так что возможны некоторые недоработки в организации мероприятия. И они всё-таки были, например, непривычное отсутствие вайфая.

В продолжение вступительного слова Дионизас привел несколько цифр, касающихся Big Data: если ещё лет 7-8 назад в основном использовалась только одна СУБД, то на сегодняшний день не хватит пальцев рук, чтобы их посчитать. Помимо этого, ежегодно происходит рост событий, которые нужно обрабатывать, так в настоящее время ежедневно приходится сталкиваться с более чем 2 млрд событий, что эквивалентно примерно 400 Гб сжатых данных. Таким образом, можно не беспокоиться, что методы работы с большими объёмами данных потеряют свою актуальность в ближайшие годы.  

После вступительного слова Рамунас Урбонас (Ramunas Urbonas) пригласил слушателей в долгое и увлекательное путешествие в мир Hadoop-а. Как и в любом путешествии, всё началось с определения направления пути, выбора мест, которые мы можем посетить. Рамунас набросал примерную область, куда может привести нас Hadoop со своей распределенной файловой системой (HDFS), основные его достоинства, так сказать, достопримечательности этого мира. Не обошел он стороной и некоторые вопросы жизненного цикла продукта. Чтобы «путешествие» было лёгким и приятным, необходимо уделить немного времени детальному планированию своего «маршрута». В этой части выступления речь шла о тех вещах (управление памяти, сборка «мусора», принципах hadoop и тестировании), которые, если оставить их без внимания, могут усложнить продвижение вперёд, а то и вовсе прервать «путешествие» ещё в середине пути. Если по каким-то причинам нет возможности или не получается составить план «экспедиции», то всегда стоит обратиться за помощью к консультантам. После того как направление выбрано и маршрут проложен, главное – не забыть «снаряжение». Ведь от правильного выбора оборудования зависит успешность проекта. Согласитесь, что не совсем удобно кататься на сноуборде в футбольных бутсах.

После такой тщательной подготовки к путешествию в мир Hadoop, вполне органично смотрелся следующий доклад Ernestas Sysojevas, в котором он рассказал об особенностях экосистемы этого мира, включающего такие элементы, как распределённую файловую систему (HDFS), MapReduce и базу данных (hadoop data base), об их свойствах, особенностях, структуре и процессах, которые происходят внутри. На этом время Hadoop-а на конференции подошло к концу. Но впереди всех ожидали не менее интересные доклады.

Следующим эстафету принял Эд Снелсон (Ed Snelson), рассказавший об особенностях работы поисковых ads систем на примере bing, которые с одной стороны предоставляют пользователю большой выбор нужного ему товара, а с другой – позволяют производителю искать новых клиентов, отслеживать информацию о предпочтении потребителей и деятельности других компаний. Речь в выступлении шла и о том, каким образом получаются данные, необходимые для управления подобными системами. Процесс получения данных включает в себя несколько этапов: проведение онлайн экспериментов, анализ полученных данных и решение возможных проблем, возникающих при анализе статистических данных, хранение и обработку полученных результатов с использованием COSMOS и SCOPE и дальнейшее их внедрение.

После кофе-паузы Тадас Пиворюс (Tadas Pivorius) поделился самыми сокровенными мыслями о своих отношениях с Cassandr-ой. Как и в любых отношениях, в этих были как свои счастливые (работает на windows, открытый код и т.д.), так и грустные моменты (переход с windows на linux, настройка GC и т.д.). И, как часто бывает после нескольких лет отношений, начинаешь засматриваться по сторонам и видишь много свежих и привлекательных… баз данных, таких как Shot и Aerospike. И волей-неволей начинаешь их сравнивать со старой, доброй и привычной Cassandr-ой и думать о возможном завершении длительных отношений. Но здесь выбор, как всегда, остается за вами.

После такого вдохновенного рассказа о длительных отношениях с Cassandr-ой, пришло время поговорить немного о конкурентах. Доклад Brian Bulkowski был посвящён Aerospike, оптимизации его работы и обзору тематических исследований.

После этого доклада выдался свободный час, в течение которого можно было перевести дыхание и восполнить энергию. И уже отдохнувшими и подкрепившимися продолжить  марафон под названием Big Data Strategy, организованный Adform, dev.by и webacademija.

Следующим нас ждал доклад Рамунаса Балукониса (Ramunas Balukonis), в котором были представлены результаты двухлетних исследований технологий для масштабируемых баз данных. Исследования охватывали 10 СУБД, включая Microsoft SQL Server, Vertica, Netezza, Amazon redshift. Результаты этих исследований, я думаю, будут интересными для специалистов.

В продолжение этого доклада было рассказано немного и о Vertica. Андрей Кириленков (Andrei Kirilenkov) представил доклад об архитектуре и функциональности данной СУБД.

После очередного кофе брейка Томас Йенсен (Thomas Jensen) рассказал о влиянии Big Data на классические машинные обучающиеся алгоритмы. Значительная часть выступления была посвящена логистической регрессии. Томас рассказал присутствующим, что представляет собой этот алгоритм, по каким причинам и где он используется. Не обошёл он стороной и пакетное обучение, в частности, пакетную версию логистической регрессии.

В заключительном выступлении конференции Сергей Сверчков и Виталий Руденя сравнили некоторые из самых популярных NOSQL хранилищ данных, таких как Couchbase, Mongo, Riak и Cassandra по 15-ти критериям, а именно: производительности, безопасности под реальной рабочей нагрузкой и многим другим. Полученные результаты сравнивались с результатами, полученными для MySQL.

На этом всё. По-моему, получилось не плохо. Программа конференции вышла динамичной и насыщенной с интересными и качественными докладами, которые то отправляли нас в путешествие по новым мирам, то погружали в мир отношений, где была и радость первых встреч, и грусть от осознания, что твой партнер не идеален. Так что думаю, каждый присутствующий смог найти здесь что-то по своему вкусу, начиная от докладов и заканчивая слоенными печеньками во время кофе-пауз.

Обсуждение