«Данные — это новое электричество. Но может и током ударить». Какие задачи решали на дататоне в Минске

Партнёрский материал
19 июля 2018, 13:04

Предсказать алгоритм покупок, спрогнозировать, будет ли клиент пользоваться услугами банка, очистить музыку от посторонних шумов — такие задачи решали участники Imaguru Datathon, который прошёл в Минске.

Читать далее…

Дататон — это хакатон, который помогает решить проблемы бизнеса с помощью data science и big data techniques. Его второй год подряд проводит бизнес-клуб Imaguru, при поддержке Агентства США по международному развитию USAID Belarus.

Если на традиционный хакатон участники приходят со своими идеями, то здесь дело обстояло иначе. Формулировали задачи и предоставляли данные компании-партнёры, участникам оставалась выбрать и решить самую интересную. До финала дошли 10 команд из 13.

Финансовый партнёр BNB Bank предоставил данные о транзакциях по карточкам, которые отражают потребительское поведение.

Команды должны были решить два задачи.

Первая — провести кластерный анализ пользователей по любым доступных значимым признакам — объём и частота операций, доля расходов на авто, продукты питания, развлечения и т. д., представить это графически и описать типичного представителя кластера. Вторая — проанализировать, какие торговые сети и гипермаркеты, автозаправки, онлайн-сервисы популярны среди пользователей карточек.

Лучшим признали решение команды BigBang, которая не только составила портрет пользователя, но и предложила, как можно использовать полученные данные. Например, участники выяснили, что есть группа людей, которые в среднем тратят в два раза меньше денег, чем остальные, но их расходы на здоровье выше. Команда сделала вывод, что этим людям можно предлагать услуги здравоохранения. А клиентов банка, которые часто пользуются такси, возможно, заинтересует предложение взять машину в кредит.

Команда Relax. Joy. Pleasure, решая задачу банка, воспользовалась иерархическим классификатором категорий товаров, разработанным белорусскими учёными (которые очень кстати оказались в команде). Участники получили 9 тысяч категорий и отсеяли непопулярные, используя ассоциативные правила — осталось всего 60 топовых. Разработали и алгоритм, который предсказывает, кто из пользователей перестанет пользоваться услугами банка.

Решение Relax. Joy. Pleasure получило приз от партнёра дататона Appodeal как самое креативное.

Самым сложным оказалось разобраться с объёмом данных, рассказал участник команды Михаил Мицкевич.

— Когда мы его разбили, можно было найти индивидуальный подход к каждой части, — отметил он. Его коллегу и по команде, и по работе Анну Павлову — вместе ребята трудятся в компании Teqniksoft — напротив, неструктурированные данные не испугали. Но что с ними делать после кластеризации, было непонятно. Решение пришло спустя два дня работы, когда сотрудник Национальной академии наук Беларуси Чеслав Рудковский озвучил идею с ассоциативными правилами.

Игровой партнёр Belka Games разрабатывает казуальные игры для соцсетей и мобильных платформ. В играх есть уровни разной сложности.

Компания поставила две задачи: предсказать, какова вероятность, во-первых, что игрок не пройдет уровень, во-вторых, что сделает платёж, играя на определённом уровне.

Лучшим признали решение команды Kaizen. Участники обнаружили аномалии данных, которые возникают, потому что информация поступает в систему неравномерно, и исключили их, потому что они не позволили бы обучить нейросеть.

— Data science — это новое электричество, — отметил участник команды Вадим Нарейко. — Новое электричество можно использовать напрямую, дать ребёнку (а machine learning — это большой ребёнок), но тогда может ударить током. Поэтому мы занялись вычисткой данных.

Музыкальный партнёр проекта Gismart поставил задачу убрать постоянные и переменные шумы, которые присутствуют в записи, и разделить музыку и вокал. Чтобы решить эту задачу, команда Enigma использовала нейросеть.

WiseAI пытались решить две задачи — Gismart и стартап-партнёра PingFin. Определить лучшее решение еще предстоит, представители компании встретятся с участниками после хакатона.

Стартап-партнёр PingFin разработал приложение для учёта финансов. Но данные транзакций позволяют определить только явные показатели, например, количество затрат, баланс карт. Чтобы лучше понимать, как ведут себя клиенты, стартапу нужны расширенные данные о пользователях.

Задачей участников было составить социально-демографический портрет пользователей — узнать, есть ли у них семья, водят ли они машину, каковы их интересы, и спрогнозировать покупки.

Команда 4DB+ работала над алгоритмом предсказания будущих покупок. Участники посещали занятия по дизайн-мышлению, которые проводили организаторы перед хакатоном. Они провели уличный опрос и выяснили, что 60% респондентов совершают покупки циклично. Этот факт подтолкнул сделать алгоритм, основанный на цикличности. Один из выводов, который сделала команда: пользователи PingFin тратят больше всего денег в пятницу, а в воскресенье затраты достигают минимума.

PingFig дал всем командам неделю, чтобы доработать результаты.

Чтобы участники могли отвлечься от напряжённой работы, во время хакатона проходили мастер-классы от менторов и тренировка от Dominant Boardshop «GO LONGBOARD» на парковке стартап-хаба Imaguru.

— Мне понравилась вовлечённость постановщиков задач, — прокомментировал итоги хакатона эксперт в области анализа данных, основатель сообщества Data Talks Сергей Кадомский. — Это были не какие-то компании, а живые люди, которые участвовали, отвечали на вопросы. В этом году задач было больше, чем в прошлом, и они были более разнообразные. Что касается участников, меня удивила большая разница между ними — были и специалисты, и люди в возрасте, и школьники.

Кадомский отметил, что пять лет назад анализ данных был не популярен.

— Когда мы начали искать специалистов, которые работали бы у нас, это было очень трудно сделать. Были какие-то зрелые бизнесы — банки, телеком, в которых решали задачи такого рода. Но в целом компании не понимали, что такое данные, как ими пользоваться. Сейчас интерес к теме гораздо больше, она гремит на весь мир, —  рассказал он.

Говоря об итогах хакатона, Кадомский отметил, что его симпатии на стороне тех, кто смотрит на задачи с точки зрения бизнеса.

— Мне были симпатичны те, кто в питчах делал конкретные предложения, — отметил он. — Пусть это что-то немудрёное, я считаю, у аналитики есть важная роль не только считать, но и предлагать.

Текст: Татьяна Гапеева

Фото: Андрей Давыдчик

Обсуждение