БЕЛАРУСЬ · 29 марта 2017, 12:15 · yankoits - Journalist в dev.by
«Не скрываем, что из Беларуси»: InData Labs работает с большими данными при помощи нейросетей

Всего за три года компания InData Labs стала заметным игроком на рынке исследований данных и искусственного интеллекта — не только в Беларуси, но и в мире. В большом интервью для dev.by минский стартап делится опытом успешных проектов, рассказывает о технологическом стеке и тонкостях в работе с данными.

Ирина Крышнева, Илья Кириллов и Денис Пирштук

— В 2014, когда родилась идея компании, в области больших данных и науки о данных в Беларуси работали только единицы, — рассказывает сооснователь и CEO InData Labs Илья Кириллов. — Поэтому мы долго проверяли идею: изучали аналитические отчёты, общались с коллегами из Wargaming и RadiumOne (Разработку программного обеспечения для Wargaming, RadiumOne и InData Labs в Беларуси осуществляет СООО «Гейм Стрим». — Прим. dev.by), убеждались, что в этой области может получиться бизнес. Я был полон энтузиазма и нуждался в единомышленнике, который разделил бы этот настрой. Ко мне присоединилась Ирина — в то время она работала у Марата Карпеко (Cооснователь InData Labs и COO Wargaming Прим. dev.by). С нас двоих всё и началось.

— В начале 2015 мы начали набирать команду — вспоминает Ирина Крышнева, операционный менеджер компании. — Одним из первых наших сотрудников стал Денис Пирштук — руководитель отдела data science. Сейчас в InData уже 30 человек.

Собрать команду профессионалов в области науки о данных, по словам собеседников, в то время было непросто: опытом работы в подобных проектах не обладал практически никто. Часть людей с нужными компетенциями всё же удалось отыскать на рынке, часть компания решила подготовить самостоятельно. Для этого основали лабораторию совместно с ФПМИ и Научно-исследовательским институтом математики и информатики БГУ.

— Мы понимали, что есть ребята с отличной теоретической подготовкой, но без практического опыта, и в лаборатории предлагали им трансформировать знания в реальные кейсы, — рассказывает Денис Пирштук, chief data scientist в InData. — Приносили задачи, для которых были собраны хорошие датасеты, и сборники материалов с конференций, в которых описывались разные подходы к решению этих задач и возможные подводные камни. В этих сборниках не было ни строчки кода — ребята должны были внимательно изучить материалы и предложить своё решение.

В первом наборе в лабораторию участвовало лишь несколько студентов ФПМИ, которых на программу лично приглашали руководители компании. С тех пор интерес к теме анализа данных многократно вырос: недавно InData проводила третий набор, и на этот раз свои решения предложенных задач присылали люди разных возрастов и профессий, в том числе из других стран.

«Чтобы работать с данными, нужно хорошо их понимать»

InData не занимается чистым аутсорсом: компания позиционирует себя как сервисная. Написание и внедрение кода — только один из этапов работы над проектом в стартапе. Большая часть времени уходит на консультирование, сбор и анализ данных и, в случае успеха, валидацию результатов.

Ирина: Абсолютное большинство сотрудников InData — специалисты по анализу данных (data scientists) и инженеры. Мы продаём наукоёмкие услуги, так что ребятам из небольшой команды по развитию бизнеса приходится достаточно глубоко погружаться в тему науки о данных, изучать, что такое нейронные сети. И всё равно уже на этапе предпродаж мы привлекаем специалистов по данным или инженеров, чтобы чётко выяснить, сможем ли мы работать с задачей, есть ли у потенциального клиента нужные данные и достаточно ли их для реализации проекта.

Ирина Крышнева

Илья: Предпродажа — интересный, но крайне сложный этап, поэтому в нём задействованы сотрудники и отдела продаж, и технических отделов. Уже на этом этапе мы демонстрируем знание бизнес-домена и  техническую экспертизу и даже можем предложить технологические решения.

Денис: Мы работаем над проектами компактными командами — это выгодно и нам, и клиентам. Все наши проекты строятся вокруг данных, и в последнее время мы фактически начинаем работу с бизнес-анализа: чтобы работать с данными, нужно хорошо их понимать. Поскольку данные часто бывают специфическими, из незнакомых нам доменов, то погружение в них каждого сотрудника требует больших временных затрат. А время — это деньги, которые вынужден заплатить клиент. К тому же чем меньше людей участвует в проекте, тем проще коммуникация и синхронизация с заказчиком.

Ирина: А заказчики разные. Во-первых, мы работаем со стартапами, которые изначально выстраивают архитектуру приложений так, чтобы собирать данные, пригодные для обработки и анализа. Во-вторых, с enterprise-клиентами, у которых за годы работы накапливаются проблемы. В основном к нам приходят с конкретными бизнес-задачами, причём очень разными: например, мы занимаемся предсказанием оттока клиентов, сегментацией пользователей, построением рекомендательных систем.

Денис: Многие продуктовые компании хотят хотя бы попробовать машинное обучение, привнести за счёт него новый функционал для пользователей. Для этого нужно хорошо понимать аудиторию, точно знать её интересы.

В офисе InData

Ирина: Наш основной фокус — именно работа с аудиторией.

Мы анализируем пользователей телекоммуникационных компаний, мобильных приложений, компаний розничной торговли. Имена многих клиентов называть не можем, поскольку данные — зачастую очень тонкая и чувствительная тема, особенно для телекома и банков. Но по большому счёту мы можем погрузиться в любой домен. Например, один из недавних проектов — работа с «женским» календарём Flo: мы помогли клиенту внедрить в приложение нейронные сети и реализовали интересный кейс по предсказанию фертильного окна.

«Иногда предлагаем кейсы, о которых заказчик и не думал»

Денис: Чаще всего мы работаем с уже собранными данными. Когда начинали работать над Flo, у ребят была большая аудитория и немало собранных данных — нам было на чём строить начальную модель.

Данные — главное конкурентное преимущество Flo, и оно получено за счёт долгосрочной стратегии. Миллионы женщин вводят в приложение огромное количество данных — опросники Flo включают до 100 пунктов. Таких подробных клинических сведений нет ни у одного врача, ни у одного университета. И чтобы собрать такие данные, Flo должен был на протяжении долгого времени внимательно работать с UX — делать всё, чтобы пользователи хотели вводить в приложение максимум информации.

Возможность работы с уникальными данными мотивировала и наших сотрудников. Анализируя миллионы записей, можно найти очень необычные закономерности и сильно повысить точность прогнозов, это практически исследовательский труд.

Денис Пирштук

Ирина: Нашим ребятам пришлось глубоко погрузиться в тематику Flo: они изучили множество научных статей, консультировались у профильных специалистов. Наверное, про особенности менструальных циклов они знают лучше многих женщин!

Денис: Но Flo — это хороший случай, а бывает и так, что данные клиента не подходят для решения поставленной задачи. В таких случаях наши инженеры могут дать консультацию, как собирать нужные данные — разработать data-стратегию. Либо рассказать, что полезного можно получить из тех данных, которые есть.

Илья: Пока не было ни одного случая, в котором мы не придумали бы, какую пользу для клиента можно извлечь из собранных данных. Иногда мы предлагаем кейсы, о которых сам заказчик и не думал.

Денис: Часто внедряем архитектурные усовершенствования, чтобы упростить расширяемость системы клиента. Так было и с Flo: мы проанализировали серверную часть приложения, отметили узкие места в архитектуре, предложили и реализовали новую серверную часть. Наше решение — сложный компромисс между гибкостью, необходимой для быстрой разработки data driven-функционала и аналитики, и обязательным наличием запаса по масштабируемости, просчитанного с учетом постоянного роста нагрузки и объёмов данных.

Ирина: Набор наших компетенций очень широк: такой full-stack data engineering / data science consulting. Мы можем и сами собрать для клиента данные из открытых источников, как, например, в проекте с калифорнийским стартапом Captiv8. Наши ребята внедрили для них аналитику аудитории социальных медиа: предсказание демографических признаков и интересов пользователей.

Денис: Объясню подробнее. Для рекламы брендов часто используют так называемых influencers — блогеров, которые могут оказывать влияние на аудиторию в вопросах выбора. Перед запуском рекламы маркетологам важно понять, насколько публика блогера совпадает с их целевой аудиторией. Их интересует сегментация пользователей по базовым признакам: пол, возраст, раса, конфессия, место проживания, языки общения, интересы в контексте рекламных категорий. Это именно поведенческая аналитика: например, с точки зрения маркетолога, Барак Обама — белый.

Для такой аналитики рекламщики хотят иметь инструмент, который использует «чистый» API социальных сетей и не требует личного обращения к блогеру. В проекте с Captiv8 мы создали такой инструмент. Решение получилось «под ключ»: система выгружает из социальных сетей всю открытую информацию о пользователях, анализирует её, выдаёт поведенческий прогноз и складывает результаты в хранилище. Кейс был очень полезен и для нас самих: мы получили хороший опыт сбора данных из открытых источников.

Аналитика текстов: «У геймера мат может выражать и положительные эмоции»

Денис: Ещё один интересный кейс мы реализовали для крупной игровой компании, которая уделяет много внимания работе с сообществом. О продуктах компании ежедневно пишут так много комментариев — на YouTube, в социальных сетях, на форумах — что читать их все физически невозможно. Поэтому у нашего клиента возникла необходимость разработать вспомогательный сервис для людей, которые занимаются исследованиями аудитории — аналитическую систему, которая позволила бы выделить наиболее релевантные тексты.

Существует немало готовых систем анализа мнений, многие из них хорошо спроектированы. Но они, как правило, подходят только для массового рынка: для классических наблюдений за брендом, отслеживания отзывов в интернет-магазинах. Для решения задачи нашего клиента требовалась принципиально другая архитектура: типовая система либо «легла» бы под потоком данных, либо потянула бы астрономический ценник. К тому же игровой компании не подходит и классическая аналитика текстов: в геймерском сообществе слишком много специфической лексики.

У клиента не было собранных данных, но он очень хорошо знал, какие тексты нужно собирать и откуда. Мы выстроили систему, которая позволяет задать все необходимые параметры: за какими каналами отзывов следить, по каким ключевым словам и за какие даты собирать тексты. Объём данных очень велик: порой под одним видео на YouTube может собраться сотня тысяч комментариев. Система за разумное время собирает их и сохраняет в базе.

При этом до попадания в базу все тексты проходят через систему предварительной обработки. Во-первых, каждому тексту присваивается тематическая категория, во-вторых, проводится анализ тональности высказывания, или сентиментальный анализ — попытка выявить эмоциональную окраску текста. Для этих задач мы выстроили дистрибутивную модель на нейронных сетях. В качестве эталонного корпуса текстов подали дамп «Википедии» — на нём нейронная сеть научилась понимать связи между словами. Потом туда же были поданы десятки миллионов текстов про игры, по объёму соизмеримые с «Википедией».

В офисе InData

В итоге модель стала хорошо различать окраску текстов с учётом всех особенностей: специфической лексики активных игроков, активным использованием мата (не обязательно является сигналом негативной оценки, а может выражать и положительные эмоции). Конечно, модель различает эмоциональные оттенки хуже, чем ребята, исследующие аудиторию, но полностью их заменить мы и не пытались. Факт, что система «видит» эти оттенки значительно лучше, чем человек, не вовлечённый в игровое сообщество.

Все тексты, сохранённые в базе, — напомню, их десятки миллионов — доступны для полнотекстового поиска. Организован он с помощью Elasticsearch — достаточно классического, хорошо масштабируемого инструмента. Но поверх него мы сделали надстройку — дистрибутивный поиск.

Дело в том, что если пользователю нашей системы нужно отыскать тексты о игровом балансе, то маловероятно, что ему подходят только те тексты, в которых есть слова «игровой баланс». С помощью нейронной сети мы автоматически расширяем поисковый запрос нужными ключевыми словами — теми, которые часто встречаются вместе с искомыми. На выходе по очень простому запросу получается достаточно полная выдача результатов с разбивкой на категории и выставленной оценкой эмоциональной окраски.

«Варьирование стека — компромисс между гибкостью и эффективностью»

Технологический стек InData изменяется от проекта к проекту. Денис Пирштук объясняет это самой сферой деятельности компании.

— Мы должны постоянно экспериментировать, предлагать что-то новое, быть гибкими в разработке, быстро подстраиваться под задачи клиента. 

За постановкой задачи всегда идёт обзорное исследование данных, трансформация бизнес-требований в технические — сопоставление того, что есть с тем, что хочется. Если на этом этапе всё хорошо, мы начинаем экспериментировать с машинным обучением. Потом начинается стадия валидации с оффлайн-тестами на исторических данных и A/B-тестами.

Денис Пирштук

Данные — вещь непредсказуемая, поэтому добиться нужного результата с первой попытки выходит не всегда. Часто приходится возвращаться на стадию экспериментов, а иногда — и к постановке бизнес-требований. И даже после внедрения природа данных может немного поменяться, и модели придётся обучать заново. А если накопится больше данных, можно будет сделать новую, принципиально более качественную модель. По такому кругу разработка проходит много раз.

Работу с данными мы, как правило, реализуем на Python — сейчас это язык номер один для анализа данных, с прекрасной экосистемой, огромным количеством библиотек. Он идеально соответствует нашему желанию быть гибкими — на нём решения строить проще и быстрее, не так «больно» что-то менять в процессе. И самые передовые алгоритмы в первую очередь реализуются именно на Python. Бэкенд Flo, например, полностью написан на Python.

В проекте с Captiv8 мы использовали Hadoop-стек: сам Hadoop, HBase для хранения данных, распределённые очереди Kafka. Там этот стек оправдывал себя — данных было очень много. А вот в проекте Flo в качестве базы данных используется PostgreSQL — такой вариант оказался оптимальным по скорости и надёжности разработки. PostgreSQL — проверенный инструмент: на нём запускался Instagram, Twitch использует сотни серверов с PostgreSQL. Нельзя вести себя как ребёнок и пытаться использовать самую последнюю игрушку — чем более новые инструменты используются в проекте, тем больше потенциальных подводных камней.

В упомянутом проекте для крупной игровой компании для обучения дистрибутивных моделей мы использовали тот же Python. В качестве промежуточного слоя, middleware, подключили Kafka, чтобы сделать систему отказоустойчивой и легко расширяемой. Для поиска, как уже упоминалось, использовали Elasticsearch — инструмент, написанный на Java, но с удобным доступом из кода на других языках. Мы не ставили задачу писать свой Elasticsearch — мы решали бизнес-задачу, используя лучшие доступные инструменты.

Варьирование стека — это всегда компромисс между гибкостью и эффективностью. Например, NoSQL очень хорош, но использование нереляционной базы данных несёт свои ограничения — например, хранение данных в ненормализованном виде. Если у команды есть чёткий план разработки на полгода вперёд, хорошо использовать Java, язык «кровавого энтерпрайза». Но если проект наукоёмкий, исследовательский, а тебе нужно быстро выходить в продакшн, разумнее применять Python. Сложные вычислительные моменты мы обычно переписываем на C++.

«Мы не стесняемся того, что мы из Беларуси»

InData Labs регулярно получает предложения о покупке, однако руководство компании и не думает продавать бизнес. Илья и Ирина чётко очерчивают цели нынешнего стартапа: стать центром экспертизы в сфере науки о данных и искусственного интеллекта. Лучшим в Беларуси — и одним из лучших в мире.

Ирина: Мы не стесняемся того, что мы из Беларуси. Вся разработка ведется в Минске, а наши клиенты — компании со всего мира: из Европы, Америки, Азии.

Кстати, выход на азиатский рынок — очень важное для нас направление. Очень большой интерес к науке о данных и большим данным проявляет регион APAC: к нам приходят компании из Сингапура, Малайзии, Индонезии. Но если американским и европейским компаниям можно успешно продавать услуги удалённо, то в Азии так не получается: там с клиентом нужно регулярно встречаться, общаться, проводить неформальные встречи.

Илья Кириллов

Илья: Там свои культурные особенности. Например, можно объяснить клиенту предложение во всех подробностях — вас внимательно выслушают, зададут уточняющие вопросы. А через несколько дней придут и попросят объяснить то же самое ещё раз! И снова с удовольствием выслушают.

Ирина: Поэтому InData Labs зарегистрировала компанию в Сингапуре. Сейчас ищем человека, который представлял бы нас в этом регионе, занимался маркетингом и продажами.

Денис: В целом, чем ты дальше от клиента географически, тем труднее с ним работать. Данные — очень чувствительная вещь. Просто взять и отдать кому-то, даже сервисной компании, самое сокровенное — нелегко. Так что единственный шанс получить клиента в дальних регионах — иметь принципиальные преимущества по сравнению с конкурентами.

Наше желание стать хорошо узнаваемым центром компетенции в области больших данных, машинного обучения, искусственного интеллекта — это вопрос выживания. Либо ты заметен, тобой гордится страна и о тебе знают во всём мире, либо ты никто, и с тобой никто не хочет работать. Посередине ничего нет.

Илья: Сегодня на рынке у нас уже немало конкурентов в борьбе за ресурсы, но мы этому только рады: это способствует повышению общего уровня и квалификации специалистов. Мы очень ратуем за то, чтобы рынок рос, сфера data science развивалась. Дмитрий Гурский и фонд Haxus проводят огромную работу, организовывают AI-хакатоны. Менторить их помогают и эксперты InData — нам очень нравится делиться опытом. К тому же в таких мероприятиях есть прямая польза для нашего бизнеса: мы встречаемся с предпринимателями, объясняем нашу предметную область, привлекаем к ней внимание.

Денис: Важно и изучать чужие кейсы. Ни одна компания в сфере искусственного интеллекта и больших данных не придумывает идеи с нуля. Нужно внимательно анализировать, что в области уже сделано — это может дать конкурентное преимущество. Сервисная компания должна обладать максимальной экспертизой, быть впереди всех остальных. Поэтому нам очень важно развивать компетенции сотрудников.

Мне как тимлиду не хочется задумываться о том, как удержать людей в команде — вместо этого мы стремимся создавать атмосферу, в которой им было бы приятно расти. Важно, чтобы специалисты обменивались мнениями и знаниями, были частью более широкого сообщества data science. Хочется, чтобы к нам на работу приходили те, у которых горят глаза к самой предметной области. И чтобы из всех компаний они выбирали InData как лидера — на рынке и в сообществе.

Фото: Андрей Давыдчик
 

Источник: dev.by
Нашли в тексте ошибку — выделите её и нажмите Ctrl+Enter.
Новые комментарии
[img]https://2.bp.blogspot.com/-hYc3gl2lHlw/WyoFeZYHS6I/AAAAAAAAFkY/4LYpCRJAMn8HP9q3aJfZGFDOnv2FzaGPQCLcBGAs/s1600/ssimg_128202257.jpg" imageanchor="1"><img border="0" data-original-height="667" data-original-width="1000" height="267" src="https://2.bp.blogspot.com/-hYc3gl2lHlw/WyoFeZYHS6I/AAAAAAAAFkY/4LYpCRJAMn8HP9q3aJfZGFDOnv2FzaGPQCLcBGAs/s400/ssimg_128202257.jpg[/img] Потребительский кредит – это наиболее простой и удобный способ решить возникшие финансовые трудности, от которых в наше время мало кто застрахован. Помимо этого получение потребительского кредита является удобной формой совершения крупной покупки, на которую никак не удается скопить денежные средства, например, на покупку автомобиля, бытовой или компьютерной техники. Даже если вам удалось скопить денежные средства, то постоянно растущий уровень инфляции их безжалостно обесценивает. Именно поэтому самым надежным, эффективным и выгодным вариантом является оформление потребительского кредита. Сегодня банковские и прочие финансовые учреждения предоставляют различные виды потребительских кредитов, благодаря которым вы можете купить все что угодно, от зубной щетки до квартиры в престижной новостройке. Используя кредитные ресурсы, вы можете оплатить тот или иной вид услуг, например, ремонт, лечение в медицинском учреждении или обучение в ВУЗе. Современные кредитные организации идут навстречу своим клиентам, предлагая получение кредитов, как в безналичной, так и наличной форме. Для потенциальных заемщиков созданы самые благоприятные условия для оформления и получения потребительских кредитов. С развитием современных технологий оформить и взять кредит теперь можно, не выходя из дома или офиса – для этого необходимо иметь любое мобильное устройство с выходом в интернет. На нашем сайте представлены крупнейшие банки России, которые предлагают получение потребительских кредитов на самых выгодных условиях и по самым низким процентным ставкам. У вас нет необходимости заниматься маркетинговыми исследованиями в поисках подходящего банка. У нас представлены стабильно работающие кредитно-финансовые учреждения, которые пользуются безупречной репутацией, и поэтому вы можете смело перейти к заполнению заявки на получение кредитных средств. Ознакомление с условиями кредитования по каждому банку, представленному в нашем списке, не займет много времени, точно так же быстро вы можете заполнить заявку на получение кредита в онлайн-режиме на официальных страницах крупных российских банков, таких как: • Промсвязьбанк; • Банк Москвы; • Банк Тинькофф; • Ренессанс кредит; • Банк «Русский стандарт»; • Уральский банк реконструкции и развития и другие. http://w88yes.ga/forum/viewtopic.php?pid=110353#p110353 http://marinushka.blog.cz/0805/taq-to-sebaposkodzovanie#komentar151018434 http://ff-kpop-cz-sk.blog.cz/1610/wicked-angel-part-23-minhyun#komentar150932781 http://www.lamilara.com/index.php/trailers-de-bano/bano-3/#comment-6751 http://w-hwezdiczka.blog.cz/0805/1-kolo#komentar150933283 Взять потребительский кредит наличными Удобство подачи заявки на получения кредита онлайн заключается в том, что вам не надо: • простаивать утомительные очереди в банке только лишь для того, чтобы получить консультацию кредитного инспектора; • собирать невероятное количество бумаг и документов, которые больше носят бюрократический, нежели практический характер; • оформления залогового обеспечения. Все что вам нужно для того, чтобы получить кредит наличными или на кредитную карту – это грамотно и точно заполнить онлайн-заявку. Это несложная операция, которая займет всего несколько минут, дает вам возможность в течение короткого времени получить кредит на карту или наличными средствами, которые вы можете спокойно потратить по своему усмотрению: • на покупку мебели; • на оплату обучения; • на ремонт квартиры; • на поездку за границу; • на покупку крупной бытовой техники; • на прочие потребительские нужды. При этом у вас нет необходимости отчитываться, на какие цели будут потрачены кредитные средства. Главная задача заемщика – своевременный возврат кредита и начисленных по нему процентов. При этом необходимо помнить, что чем лучше кредитная история заемщика, тем больше у него шансов быстрее получить кредит, а также оформить заем на большую сумму. Благодаря тесному взаимовыгодному сотрудничеству с проверенными и надежными кредитными организациями Российской Федерации, мы поможем вам оформить самый выгодный потребительский кредит, будь то кредит в наличной форме или заем на кредитную карточку. [url=http://profizum.ru/]Кредит[/url]
Bryanmoone
24.06.2018 в 14:12
Microsoft отказалась от обещаний добавить VR в Xbox

Обсуждение

Missing-male
+3

Разработку программного обеспечения для Wargaming, RadiumOne и InData Labs в Беларуси осуществляет СООО «Гейм Стрим».

Ещё одна стартап-бануба, которая немного икспикэпитал. Только сейчас варгейминг.

2467f521ec448242444fb883e247f3ae?1529799835
+3

Пока не было ни одного случая, в котором мы не придумали бы, какую пользу для клиента можно извлечь из собранных данных. Иногда мы предлагаем кейсы, о которых сам заказчик и не думал.

Вся сущность доброй половины бигдата сервисных компаний: "Вы что это же бигдата, это трендово, это модно, маст хэв вот это всё, подписывайте контракт, а мы пока придумаем зачем она вам нужна."

Missing
+1

Ну в целом это нормально, когда многие конторы не очень четко понимают, что им делать с накопленными данными и атусорсят на сторону их обработку и аналитику, правда, в этом то особо ничего нового нет. Но, да, из-за всего этого хайпа апостолы бигдаты немного начинают напоминать эджайл евангелистов.

Missing

не, рациональное зерно есть - с приходом нейронок в статистику, там появилась возможность делать такой анализ данных, который раньше был просто невозможен (нейронка, например, может служить для построения регрессии без "проклятия большой размерности", свойственных для классических методов).

потому понятно, что эта тема может сулить перспективы на фоне растущего объема данных.

другое дело, не совсем понятно, почему не используются общестатитические методы, а говорится о "погружении с головой в каждую предметную область" для возможности провести анализ...

2467f521ec448242444fb883e247f3ae?1529799835
Never_Know
– Developer в EPAM

-1

Так и погружаются с головой в предметную область, в первую очередь чтобы придумать кейсы, которые можно было бы продать. Про нейронки и мэшин лернинг сложно поспорить ,что это трендовая тема и открыла новые возможность для обработки данных больших размерностей.

Просто из бигдаты последние годы лепили такую всеобщую панацею - запихиваем кучу чисел, кликаем и на выходе 42. Все радостно хлопаем и бизнес просто взлетает. Но очень часто в бигдате работают ради самой бигдаты, получаемая на выходе информация не несёт какой-то практической ценности, просто набор выявленных "интересных закономерностей".

Missing
+1

я имел в виду, что не совсем понятно, для чего нужно погружаться в нюансы менструального цикла женщин, чтобы провести анализ данных на предмет того, какие факторы и насколько влияют на фертильность. по идее, достаточно было просто взять набор факторов, и запустить стат. методы (которым безразлично, что они анализируют, абы только у них шкалирование нужное было). [если, конечно же, задача не стояла в создании какой-то научной теории на основе этих данных - тогда да, надо было все механизмы подробно изучать]

Picture_675?1356409817
+2

Так данные нужно собрать и повозможности нормализовать (что 90% всей работы). А без погруженяив предметную область это невозможно сделать.

Missing-male

В таких случаях не очень понятно, чем собственно создатели стартапа занимались, если им серверную часть переписали, ещё и в менструациях разобрались, фронтэндзаюили и конверсию данных замутили. Чисто "в общем" не такую уж и уникальную идею загенерили и финансирование нашли?

Missing

а можно пример, чтоб понятно стало, почему для "нормализации" нужно очень хорошо знать предметную область?

Missing
+1

сейчас даже макака может запустить ML алгоритм с готовым датасетом, т.к. все уже написано до нас. А вот "просто взять набор факторов" оказывается не так просто. Подготовка и валидация данных занимает если не все, то почти все время. Для валидации и надо погружаться в предметную область, потому что на входе вам, как правило, предлагается полнейший шлак, со словами "не, ну вот же данные нормальные -- тут всего лишь достаточно взять набор факторов и запустить стат методы".


Авторизуйтесь, чтобы оставлять комментарии

Использование материалов, размещенных на сайте, разрешается при условии прямой гиперссылки на dev.by. Ссылка должна быть размещена в подзаголовке или в первом абзаце публикации.
datahata — хостинг в Беларуси