Machine Learning для бизнеса: что показал дататон

1 комментарий
Machine Learning для бизнеса: что показал дататон

Презентация результатов использования обучения без учителя во время дататона. На фото Максим Ходар, участник команды Maks and Friends (источник)

Когда на руках у компании супермассивы данных, хочется извлечь из этого бизнес-пользу. Как это сделать, расскажем на примере опыта участия в дататоне нашей сотрудницы Ольги Лейба.

Дататон (datathon) – то же, что и хакатон, но с фокусом на решении задач, связанных с интеллектуальным анализом данных (machine learning). Участники форума, организованного стартап-хабом Imaguru, смогли проверить, как работает машинное обучение на практике.

Читать дальше

Чего ожидали спонсоры

Компания velcom и Приорбанк в рамках своих заданий предоставили данные о клиентах. Информация была подана в обезличенном виде. velcom ожидала получить инструмент прогнозирования ухода пользователей на основе классической модели анализа – обучение с учителем (supervised learning).

Обучение с учителем – вид принудительного машинного обучения, при котором система учится устанавливать взаимосвязи между объектами и подходящими ответами из обучающей выборки. Подходит для задач, в которых нужно предсказать величину объекта на основе конечного числа примеров. Например, определить возраст пользователя по его действиям в интернете.

Приорбанку были любопытны любые идеи, сгенерированные в процессе анализа данных о клиентах банка. Здесь пригодился метод кластеризации или обучение без учителя (unsupervised learning).

Обучение без учителя – вид спонтанного машинного обучения без участия человека. Система располагает только входными данными (объектами) и должна научиться устанавливать взаимосвязи и закономерности, не имея ответов. Подходит для задач, где нужно найти группы похожих объектов по каким-то параметрам. Например, сегментация пользователей мобильного оператора.

Как действовала команда

Метод обучения без учителя: чем интересен

По словам Ольги, их команде было интересно попробовать свои силы в поиске взаимосвязей и закономерностей реальных данных с использованием метода обучение без учителя и попытаться понять, как полученная информация может пригодиться в бизнесе. Особый драйв участию придавал факт того, что результат будет непредсказуемым.

В задаче – реальные данные​

Пример данных, с которыми предстояло работать участникам дататона, используя метод обучение без учителя

 

Проанализированы все виды назначений платежей и установлены связи. Чем больше совпадений в платежах по нескольким сервисам, тем выше зависимость (толще линия соединения)​

 

Вызов: обработать данные за два дня

На решение задачи было отпущено два дня: данные выдали в пятницу вечером, а в воскресенье вечером команда должна была представить результаты. Идей было много и хотелось попробовать самые разные варианты, но из-за горящих сроков успели сделать меньше, чем рассчитывали.

 

Что в результате

Визуализация кластеров с помощью Matplotlib

Визуализация кластеров с помощью Matplotlib

Члены команды успели сделать стандартную обработку неразмеченных данных – понизили размерность, провели кластеризацию, сделали корреляционный анализ. Для этого использовали такие инструменты, как Python, t-SNE, DBSCAN, Matplotlib. Команда также провела корректировку под реальность данных. Например, удивило одно значение, которое выбивалось из остальных чисел (outlier) – стоимость поездки на Uber в 16 000. При более тщательном анализе оказалось, что параметр платежа указан в иностранной валюте. После того, как команда конвертировала основные валюты, а редкие просто отсекла, получилась более понятная картина.

К утру воскресенья команде удалось найти в данных несколько взаимосвязей и трендов, похожих на правду. Их и представили жюри, чтобы продемонстрировать, что метод анализа данных без учителя способен дать содержательную информацию для дальнейшей работы аналитиков и маркетологов. Например, оба подхода, которые использовала команда – анализ на графе и кластеризация – показали связь между теми, кто ездит на Uber, и теми, кто совершает покупки в ITunes. А кластер, расположенный недалеко от первого, выявил связь, что держатели карт в иностранной валюте – это молодые люди, которые любят посидеть в кафе и ресторанах.

Победу по задаче от Приорбанка одержала команда Maks and Friends, в составе которой была и Ольга Лейба.

Обучение без учителя: беспристрастное подтверждение гипотез

Метод анализа данных обучение без учителя позволяет беспристрастно генерировать гипотезы через прогон всех данных и, таким образом, их подтверждать. Здесь отсутствуют причинно-следственные связи, и для результатов характерна нестабильность. Например, команда выдвинула гипотезу, что если человек любит фаст-фуд, то будет тратить деньги в точках быстрого питания разных поставщиков. Однако такой связи обнаружено не было.

Этот метод будет полезен компаниям, у которых накоплен большой массив данных о клиентах. Если компании важно быстро реагировать на то, как меняются предпочтения и покупательская активность клиентов, то такая модель анализа позволит получать информацию без искажений и взвешенно корректировать подход и методы предоставления услуг.

Ольга считает область машинного обучения крайне интересной и перспективной и планирует изучать ее и дальше. В планах освоить современные инструменты для визуализации данных, чтобы результаты получались более наглядными.

Читайте также

«Они вообще хотят работать?» Мнение Владимира Линёва о «хардверных поправках»
«Они вообще хотят работать?» Мнение Владимира Линёва о «хардверных поправках»

«Они вообще хотят работать?» Мнение Владимира Линёва о «хардверных поправках»

Хайтек-сообщество обсуждает возможные хардверные поправки в Положение о ПВТ Гендиректор ADANI Владимир Линёв известен своим принципиальным отношением к льготам: в ПВТ компания не вступает, так как «бесплатный сыр только в мышеловке». А обсуждаемые поправки ADANI не затрагивают. dev.by познакомил с ними Владимира Линёва, чтобы услышать экспертное мнение со стороны.
3 комментария
«900 продуктовиков из местного Linkedin делите на 10». PandaDoc затеяла трансформацию
«900 продуктовиков из местного Linkedin делите на 10». PandaDoc затеяла трансформацию

«900 продуктовиков из местного Linkedin делите на 10». PandaDoc затеяла трансформацию

dev.by поговорил с VP of Engineering в PandaDoc Ильёй Казимировским и Director of Engineering Николаем Амелишко про то, как и зачем компания «убирает стены» перед трансформацией, нанимает новых high level топов, учит сотрудников фейлиться. И, конечно, опять про культуру.  
31 комментарий
Восемь белорусских ИТ-компаний попали в топ-100 лучших аутсорсеров мира
Восемь белорусских ИТ-компаний попали в топ-100 лучших аутсорсеров мира

Восемь белорусских ИТ-компаний попали в топ-100 лучших аутсорсеров мира

13 комментариев
Wargaming выпустил книгу для айтишников-иностранцев
Wargaming выпустил книгу для айтишников-иностранцев

Wargaming выпустил книгу для айтишников-иностранцев

12 комментариев

Обсуждение

Anonymous
Anonymous Marketing & PR Director в Softeq Development
0

Может быть у организаторов дататона они где-то выложены. Мы, к сожалению, не в курсе.