0
Valeryia Shchutskaya – PR and Communications в IDT Belarus
КОРПБЛОГИ

C 9 по 15 октября в мире в 7-й раз прошла неделя больших данных. Впервые Минск появился на сайте комьюнити bigdataweek.com и присоединился к международному фестивалю, став одним из официальных городов-участников наряду с Лондоном, Мадридом, Джакартой, Куала-Лумпуром и Сан-Паулу.

Основными темами фестиваля в этом году стали построение систем обработки больших объемов информации, наука о данных, искусственный интеллект (AI) и интернет-вещей. Главным мероприятием в рамках Big Data Week 2017 стал Big Data-форум в Лондоне 13 октября.

Флагманским событием минской недели больших данных стала конференция “AI Day Minsk 2017”, которая состоялась 14 октября в Бизнес-инкубаторе ПВТ. Большинство докладов на конференции было посвящено различным технологиям из области искусственного интеллекта. Мероприятие вызвало настоящий ажиотаж, и регистрация была закрыта всего спустя 2 дня после анонса. Среди слушателей были представители ведущих белорусских IT-компаний, ученые из ОИПИ НАН Беларуси, преподаватели и студенты из БГУ и БГУИРа, а также представители AI-сообществ России и Украины. Для тех, кому не хватило мест в Бизнес-инкубаторе ПВТ, и тех, кто не смог прийти лично по другим причинам, была организована онлайн-трансляция.

Тема искусственного интеллекта стала “горячей” уже несколько лет назад. Это можно связать как с развитием технологий машинного обучения и нейронных сетей (одно из направлений исследований в области искусственного интеллекта), так с появлением больших наборов данных и достаточных вычислительных мощностей, без которых практическое применение многих алгоритмов было бы невозможным. В рамках AI Day Minsk спикеры подготовили шесть докладов разного уровня сложности, постаравшись максимально охватить разные математические, технические и бизнес-аспекты разработки в области искусственного интеллекта и больших данных.

Chief Data Scientist компании InData Labs Денис Пирштук выступил с обзором основных трендов и направлений развития современного искусственного интеллекта, не забыв также отметить и проблемы с которыми сталкиваются компании, когда только начинают путь внедрения ИИ в свои бизнес-процессы.

 

Затем его коллега Роман Меркулов рассказал о подходах к прогнозированию временных рядов,  условиях применения и ограничениях различных методов, а также сравнил инструменты, которые могут быть полезны при решении таких задач.

После обеда CTO компании "Ideanomix Digital" Андрей Ковзел рассказал о кейсе  применения нейронных сетей для улучшения прогнозов цикла на примере своего умного мобильного приложения Flo, а также о полезности продукта в целом в превентивной медицине.

Продолжило конференцию выступление Алексея Тишурова о современных подходах к задачам обработки естественного языка (NLProc). Доклад был посвящен проблеме многометковой классификации, ее постановке, особенностям, преимуществам и недостаткам основных подходов к ее решению.

Левон Авакян, Server Reliability Team Lead минского офиса разработки Wargaming,  поделился опытом использования Kafka в World of Tanks. Левон рассказал об общем устройстве сервиса, о тех задачах которые команда решает, используя Apache Kafka, с какими сложностями они столкнулись и как их преодолевали - как со стороны сервера, так и со стороны клиентов, а также о тонкостях конфигурирования кластера Apache Kafka.

Закончилась конференция докладом Lead Data Scientist-а компании InData Labs Дениса Дуся о вероятностном моделировании в глубоком обучении. Денис рассказал о преимуществах, которые дает вероятностное моделирование при построении алгоритмов машинного обучения, cвязи вероятностного моделирования и методов регуляризации нейронных сетей, проблемы пропусков в данных и процесс моделирования с латентными переменными, идеях "байесовского мира" в контексте глубокого обучения. Несмотря на математическую сложность, доклад вызвал большой интерес и много вопросов.

Отметим, что на конференции у участников были созданы условия и для неформального общения, в перерывах участники делились между собой личным опытом, обсуждали доклады и многие актуальные темы в области искусственного интеллекта и больших данных. На странице мероприятия в Facebook доступны слайды презентаций спикеров и официальный фотоотчет, а на YouTube уже опубликованы видеозаписи всех выступлений.

Фото: Андрей Давыдчик

 

0
Valeryia Shchutskaya – PR and Communications в IDT Belarus
КОРПБЛОГИ

Помимо работы над проектами клиентов, data science команда InData Labs часто принимает участие в различных соревнованиях. Об успешном опыте участия в соревновании на Kaggle рассказал data scientist компании Артём Фаразей.

Читать далее
0
Valeryia Shchutskaya – PR and Communications в IDT Belarus
КОРПБЛОГИ

Автор: Артем Фаразей

Помимо работы над проектами клиентов, наша data science команда часто принимает участие в различных соревнованиях.

Недавно мы показали хороший результат в Quora Question Pairs Challenge на Kaggle. Это соревнование примечательно большим количеством неожиданных открытий и оживленных дискуссий среди участников. Поэтому я решил детально описать особенности этого соревнования и раскрыть вам рецепт победы.

Описание и цель соревнования

Quora - социальный сервис для обмена знаниями, где любой может задать интересующий его вопрос. Аудитория Quora очень разнообразна. Люди используют сайт для учебы, работы, и в любой ситуации, когда у них возникают вопросы, на которые они затрудняются найти ответы. Более 100 миллионов человек посещает ресурс каждый месяц, поэтому не удивительно, что многие задают похожие вопросы. Вопросы-дубликаты усложняют процесс поиска ответов и заставляют отвечающих тратить больше сил на то, чтобы охватить все похожие вопросы. Перед участниками соревнования была поставлена задача предсказать, какие из предложенных пар вопросов являются дубликатами.

Участникам предложили тренировочный датасет, который содержал больше 404 тысяч пар вопросов. Если вы присмотритесь к примерам, то сразу поймете, что данная задача очень сложна даже для человека:

Первые три вопроса были предварительно помечены  Quora как дубликаты, а пары 4-6 считались не дубликатами. Как видно из примеров, словарное наполнение вопросов-дубликатов может совсем не совпадать, а вопросы, которые не являются дубликатами, могут отличаться всего одним словом. Это одна из главных особенностей датасета, которая делает задачу такой сложной для NLP технологий.  

Интересные особенности датасета

Практически сразу после начала Kaggle соревнования участники начали делиться интересными наблюдениями о датасете. Примеры самых распространенных наблюдений:

Шумная разметка данных

Как признались сами организаторы, “Предварительная разметка необходима для того, чтобы проинформировать участников, но не является на 100% правильной, может содержать ошибки. Мы считаем, что в разметке соблюдено равновесие, но в отдельных случаях возможны исключения”. На самом деле, участникам встретилось множестве примеров, где разметка была неправильной, либо двусмысленной. Некоторые сравниваемые вопросы были включены только частично. Вот несколько примеров:

У участников этого соревнования часто случались ситуации, когда на некоторых вопросах их модели предсказывали метки более точные, чем те, которые содержались в оригинальной разметке.  Еще необходимо отметить, что ручное исправление явно неверных меток в обучающей выборке не приводило к улучшению качества на тестовой выборке, т.к. в ней видимо тоже много некорректных меток.

Большое количество вопросов про Индию

Несмотря на то что обучающая выборка содержит вопросы, которые затрагивают большое количество различных тем (начиная с вопросов про котиков и собачек, заканчивая вопросами про недавние громкие политические события), сразу бросается в глаза, что значительная часть вопросов касается Индии. Это неприятно тем, что некоторые NLP модели, обученные на таком датасете, могут начать придавать слишком большое значение словам, которые специфичны только для вопросов про Индию, а значит такие модели могут плохо работать на вопросах не связанных с Индией. Нам это не сильно помешало, т.к. в тестовой выборке тоже было довольно много вопросов про Индию.

Зависимость количества дубликатов от времени и различная доля дубликатов в обучающей и тестовой выборках

Эта интересная особенность связана с id вопросов в обучающей выборке. Сами по себе id вопросов - это служебная информация, однако часто в соревнованиях по машинному обучению id неявно содержат полезную информацию. Например, если мы предположим, что более старые вопросы имеют меньший id, а более новые - больший, то мы можем посмотреть на зависимость доли дубликатов от времени.

(ссылка на оригинал)

Как мы видим на графике, со временем доля дубликатов снижается. К сожалению, в отличии от обучающей, тестовая выборка не содержит id вопросов, поэтому мы не можем явно использовать эту информацию (хотя некоторые участники пытались восстановить id и для вопросов из тестовой выборки). Если учесть то, что распространенной практикой является использование в качестве обучающей выборки  более старых данных, а для тестовой - более свежих, то это наталкивает на мысль, что доля дубликатов в тестовой выборке, на самом деле, ниже, чем в обучающей. Более того, для самых новых вопросов из обучающей выборки доля дубликатов находится в районе 15-20%, что очень хорошо согласуется с предыдущими оценками доли дубликатов в public leaderboard, согласно которым в тестовой выборке всего 17.5% дубликатов.

Вкупе с тем, что организаторы случайным образом делили тестовую выборку на public и private, мы вполне можем надеяться, что и в private датасете доля дубликатов будет примерно такой же.

Нам очень важно знать, если распределение дубликатов в тестовой выборке существенно отличается, так как используемая в данной задаче метрика качества сильно от неё зависит и очень чувствительна к её изменению. Например, если модель будет сомневаться, к какому классу отнести какой-нибудь пример, то она скорее всего отметит его как не дубликат просто потому, что в выборке, на которой эта модель обучалась, не дубликатов было значительно больше чем дубликатов.

Магические фичи

Изначально предполагалось, что участники будут использовать только текстовые данные, однако оказалось, что очень много информации о вопросах хранится в структуре датасета. Для того, чтобы использовать эту информацию удобно представить датасет в виде графа. Это можно сделать разными способами. Например, можно построить граф, в котором каждая запись в датасете будет представлена двумя вершинами, соединенными ребром, при этом каждая вершина соответствует одному вопросу из датасета. Например, если мы представим, что датасет состоит всего из семи записей,

граф будет выглядеть следующим образом:

Теперь мы можем для каждой пары вопросов, которые соответствуют какой-либо записи из датасета, посчитать количество “общих соседей”, т.е. вопросов, которые соседствуют в графе с обоими вопросами из данной записи. Например, для первой записи из нашего примера таких вопросов-соседей будет два:

Оказалось, что количество таких “общих соседей” - очень мощная фича. Это можно увидеть на следующем графике, где изображено соотношение дубликатов и не дубликатов в обучающей выборке для записей с определенным числом общих соседей.

Так, например, среди всех записей, для которых значение этой фичи равно нулю, дубликатов около 80%, тогда как среди записей, имеющих одного соседа, дубликатов меньше 40%.

Другая структурная особенность - частота вопроса. Давайте посчитаем для каждой вершины графа количество инцидентных ей ребер (или другими словами, просто посчитаем сколько раз каждый отдельный вопрос встретился в датасете). Тогда каждой записи будет соответствовать частоты двух вопросов, и в качестве фич мы можешь взять минимальную (максимальную) из этих частот, их среднее или модуль разности. Такие фичи тоже получаются довольно мощными и улучшают качество модели (впрочем, это может объясняться корреляцией этих фич с предыдущей).

Во время соревнования эти фичи окрестили “магическими”, так как они были очень мощными, для многих было неожиданно, что можно извлечь информацию не только из текста, а также не было понятно, будут ли подобные фичи полезны в реальной жизни (для организаторов соревнования). К тому же, некоторые NLP модели (например TF-IDF) неявно используют частоту вопроса, а значит они могут давать прирост качества только потому, что эксплуатируют особенность датасета.

Наше решение Quora Question Pairs Competition на Kaggle

Deep learning

Учитывая то, какая перед нами стояла задача, можно справедливо отметить, что перед началом соревнования многие (в том числе и организаторы соревнования) возлагали большие надежды на deep learning. Ведь действительно, DL модели зачастую оказывались намного лучше, чем модели использующие сотни ручных фичей (а именно такая модель использовалась на тот момент в Quora). Именно поэтому мы начали именно с них.

Word vectors (Embeddings)

Под DL моделями в настоящее время подразумеваются глубокие нейронные сети, которые принимают на вход сырые данные (в нашем случае это тексты вопросов) и сами извлекают из них необходимые фичи. Однако есть проблема - нейронные сети (да и вообще компьютеры в целом) предпочитают работать с наборами чисел (векторами) и совершенно не умеют работать с сырыми текстами. (Например слова “dog” и “puppey” имеют довольно похожий смысл, но для компьютера это просто строки, причем не очень похожие строки. Они имеют разную длину, у них встречаются разные буквы, и компьютер просто по этим двум строкам не сможет сказать, что они имеют одинаковый смысл. А для данной задачи нам жизненно необходимо понимать, похожи слова или нет.) Для решения этой проблемы используется подход, который называется word2vec. Его смысл можно описать известной цитатой: “You shall know a word by the company it keeps” - Firth, J. R. 1957. Word2vec преобразует слова в векторы так, что слова, которые встречаются в схожих контекстах, имеют схожие векторы. Используя word2vec мы можем преобразовать сырой текст в набор векторов, которые можно с лёгкостью скормить нейронной сети.

Стоит еще отметить, что word2vec (или другие embeddings) очень тяжело обучать, т.к. для этого требуется корпус текста размером с Википедию. Поэтому почти все участники используют заранее обученные модели.


Капучино и эспрессо почти всегда используются в одном контексте, поэтому не удивительно, что для робота-официанта использующего word2vec это почти одно и то же.

Нейронные сети

Для данной задачи как нельзя лучше подходят сиамские нейронные сети. Они используются, когда нам определить насколько похожи или непохожи два объекта. Их архитектура предполагает два абсолютно одинаковых входа, которые используются для извлечения фич из переданных в них объектов (в нашем случае это текст вопросов). Далее либо на их основе считаются какие-либо метрики сходства (например косинусное расстояния), либо фичи двух объектов объединяются и передаются в полносвязный слой. После нескольких экспериментов мы остановились на архитектуре, которая нарисована на схеме:

Глядя на нее, хочется отметить несколько вещей:

  1. Помимо двух входов для сравниваемых вопросов, присутствует третий вход для ручных фичей, что не очень характерно для DL моделей. Это сделано из-за “магических фичей”, которые хорошо работают на данном датасете.
  2. В нашем решении мы использовали две нейронный сети: в первом случае для извлечения информации из вопросов использовался LSTM, а во втором - несколько сверточных слоев с последующим Global Max Pooling.
  3. Архитектура, на которой мы остановились, на самом деле, не очень “глубокая”. Чтобы глубокие нейронные сети работали хорошо, нужно очень много данных. К сожалению, наш датасет не такой большой, и довольно шумно размечен. При добавлении новых слоев мы рискуем сильно переобучиться (особенно если мы используем LSTM).
  4. Есть ещё много идей, с которыми мы бы хотели поэкспериментировать, например: 
  • LSTM with attention
  • Character-Aware Neural Network
  • Triplet Neural Network
  • Target encoding

После экспериментов с нейронными сетями стало понятно, что только ими нам не обойтись. Помимо того, что датасет не достаточно большой и шумно размеченный, чтобы DL модели показали на нём всю свою силу, есть проблемы и с представлением текста в виде векторов: в датасете часто встречаются вопросы, которые содержат математические формулы, нераспространённые сокращения, опечатки и т.д. Из-за этого теряется часть информации о вопросе, что существенно усложняет задачу нейронным сетям.

Градиентный бустинг

Пришло время для излюбленного инструмента участников data science соревнований - градиентного бустинга, который зарекомендовал себя как мощная и устойчивая к шуму модель.

Для него мы использовали следующие фичи:

  • Длина вопросов, количество слов, количество слов без стоп-слов
  • Количество заглавных букв, вопросительные знаки, скобки и тд.
  • Индикаторы вопросов, такие как "Are", "Can", "How" и тд.
  • Различные меры сходства, основанные на word embeddings (Word2Vec, FastText, Glove)
  • Word Mover's Distance
  • Различные меры сходства, основанные на n-граммах символов (включая TF-IDF)
  • Jaccard, Canberra, Chebyshev similarities
  • А также фичи предоставленные Abhishek и Mephistopheies
  • PageRank

Во время этого соревнования у нас была возможность протестировать новую библиотеку градиентного бустинга LightGBM. Оказалось, что по точности она не хуже  (а даже немного лучше), чем старый добрый XGBoost, и при этом в несколько раз быстрее его. Так что все наши финальные модели (как и модели многих других участников) использовали LightGBM.

Также мы добавили out of fold предсказания нейронных сетей как фичи для бустинга. Осталось только не забыть сбалансировать классы, подобрать параметры модели и аккуратно провалидировать результаты. Такой модели с лихвой хватит чтобы получить серебряную медаль.

Рецепт победы

Что же нужно было сделать, чтобы победить в этом соревновании? Вот краткий “рецепт успеха”:

Чем больше, тем лучше

В то время как мы использовали около 70 ручных фич и 3 модели, победители этого соревнования оперировали 1000+ фичами и объединяли сотни (вплоть до 1000) моделей. В общем, как это часто бывает в соревнованиях на kaggle, чем больше различных моделей объединяешь - тем лучше.

Продвинутые графовые фичи

Как уже ранее упоминалось, рассмотренные нами графовые фичи - далеко не единственный способ использовать особенности предоставленных данных. В погоне за первым местом участники придумали большое количество более сложных графических фич, которые содержат в себе еще больше информации о структуре датасета.

Local rescaling

Ключевая идея здесь в том, что весь датасет можно разделить на несколько более маленьких датасетов, каждый из которых будет иметь различное распределение дубликатов, поэтому балансировать эти датасеты нужно по разному.

Постобработка предсказаний

Ещё один способ улучшить результат, которым пользовались участники - корректировка уже полученных предсказаний модели. Например, для этого можно использовать свойство транзитивности (т.е. если вопрос B - дубликат вопроса A, а вопрос C - дубликат вопроса B, то очевидно, что  A и C - тоже дубликаты)

Хотелось бы отдельно обратить внимание на решение Alex, в котором используется всего одна модель - сверточная нейронная сеть (ее архитектура довольно похожа на нашу). Эта модель показывает хорошую точность и при этом, в отличии от всех остальных решений, имеет очень хорошую производительность. Она больше других подходит для применения в реальной жизни и определенно заслуживает внимания.


Соревнования на Kaggle это всегда отличное место, чтобы узнать что-то новое. Тем не менее, лучшее решение на Kaggle не гарантирует лучшее решение проблемы бизнеса. Пример этого соревнования показывает, что нужно быть очень внимательными и рассудительными во время подготовки данных для обучения моделей. Ведь если те особенности датасета, которые мы описали, являются искусственными и не характерны для всей базы Quora, то все решения, которые предоставили участники соревнования, не будут работать в реальной жизни. Это соревнование также показало, что важно сохранять широкий взгляд на проблему, видеть различные способы улучшения модели и оставаться открытыми к новым идеям и подходам. Надеюсь, эта статья была полезна для вас.

0
КОРПБЛОГИ

Мы знаем - вы ждали новостей об очередном наборе в нашу Data Science лабораторию!

Сегодня мы рады объявить о старте нашего нового образовательного проекта для студентов.

В этом году у нас появился прекрасный партнер - компания Wargaming, благодаря которому мы смогли расширить программу курса, подготовить больше интересных задач и сделать обучение еще более полезным для участников.

Совместно с ведущими специалистами Wargaming мы разработали эффективный практический курс по Data Science и Software Engineering - WG Forge.

 

Если ты любишь математику и сложные задачи, тебе интересен анализ больших данных и машинное обучение, то это твой шанс развить свои навыки и устроиться на работу в одну из компаний-организаторов: InData Labs или Wargaming.

Отборочный конкурс в WG Forge уже начался! Условия участия можно найти на сайте wgforge.wargaming.com.

Команда InData Labs желает всем успехов в решении тестового задания! Скоро увидимся;)

0
КОРПБЛОГИ

25 - 30 июля в Имагуру прошел первый в Беларуси Datathon -  хакатон, на котором основой для решения задач являются большие данные.

В течение двух дней 13 команд работали над решением задач от компаний-партнеров Datathon’a: Velcom и Приорбанк.

Кроме соревнования и работы над решением задач программа Datathon’a включала курс по дизайн-мышлению, нетворкинг с представителями различных индустрий и с экспертами в области Data Science из InData Labs.

InData Labs выступила эксклюзивным Data Science партнером мероприятия. Во время Datathon’а наша команда оказывала участникам менторскую поддержку, а также провела мастер-классы по визуализации данных, глубокому обучению, предсказательной аналитике.

Денис Пирштук, Chief Data Scientist в InData Labs, провел мастер-класс, на котором объяснил решение маркетинговой задачи для банков с помощью предсказательной аналитики. Подробнее.

Денис Дусь, уже более двух лет занимается машинным обучением в InData Labs. На Datathon’е провел мастер-класс по глубокому обучению. Подробнее.   

Роман Меркулов, Data Scientist в InData Labs, поделился обзором инструментов для визуализации данных на python. Подробнее.

На хакатоне можно было работать с данными, предоставленными компаниями-партнерами, или использовать данные из открытых источников.

Среди команд, работающих с данными компании Velcom для создания решения по уменьшению оттока клиентов, первое место заняла команда КВ. Они представили концепцию CRM по удержанию клиентов, склонных к расторжению контракта.

Приз от Приорбанка получила команда Max and Friends. Разработанная ими система помогает таргетировать рекламу продуктов банка и создавать партнёрские программы.

Победителями среди команд, работающих с открытыми данными, стали DocAI. Они представили медицинский сервис для онлайн-консультаций. Команда использовала данные об обращениях пользователей на портале «Спроси доктора» для создания чат-бота, который помогает выбрать врача, к которому нужно обратиться при заданных симптомах.

Мы благодарим всех партнеров Datathon’a за организацию этого мероприятия, еще раз поздравляем победителей и желаем успеха всем, кто пытается укратить большие данные!

 

0
КОРПБЛОГИ

Профессия data scientist остается самой “горячей” профессией XXI века. Спрос на экспертов в области data science продолжает расти абсолютно во всех сферах бизнеса, а найти опытных специалистов становится все сложнее. Недавно американский сайт для поиска работы Glassdoor опубликовал рейтинг самых востребованных вакансий в США, вакансия Data Scientist в этом рейтинге заняла первое место и по праву была названа “the best job in America”.

InData Labs как компания, которая разрабатывает продукты и оказывает услуги в области анализа данных, машинного обучения и искусственного интеллекта, как никто другой ощущает нехватку опытных специалистов в этой сфере. Поэтому еще 3 года назад основатели компании решили разработать собственную программу для обучения студентов обработке естественного языка, машинному обучению, компьютерному зрению и другим технологиям, которые сегодня пользуются огромным спросом со стороны бизнеса.

Главная цель программы дать талантливым студентам возможность начать карьеру в Data Science. Для InData Labs это возможность делиться своим уникальным опытом со студентами, развивать data science сообщество в Беларуси и готовить новое поколение профессионалов, способных вести компанию вперед.  

Участники Data Science лаборатории InData Labs с первого дня применяют свои знания на практике, решают задачи из разных отраслей и учатся у признанных в Беларуси экспертов по искусственному интеллекту и машинному обучению.

Денис Пирштук, Chief Data Scientist в InData LabsДенис Пирштук, Chief Data Scientist в InData Labs, руководит лабораторией с момента ее создания. 

“Мы находим людей, которые уже обладают хорошей теоретической базой в области Computer Science и Machine Learning, и помогаем им получить важный практических опыт, решая интересные задачи, под нашим менторством, - рассказывает Денис. - Лаборатория InData Labs это не Data Science курс для начинающих. Анализу данных с нуля за 3 месяца не научишься. Лаборатория — это место для талантливых ребят, решивших связать свою карьеру с Big Data & Data Science, и уже достаточно много узнавших об этом самостоятельно. Мы же помогаем углубить свои знания, получить ценный практический опыт, а также предоставляем готовую серверную инфраструктуру с графическими процессорами, чтобы решать действительно сложные задачи в области Deep Learning на больших объемах данных.”

Мы стараемся набирать в лабораторию самых мотивированных студентов, поэтому всем желающим попасть в InData Labs мы предлагаем поучаствовать в Data Science конкурсе. Победители конкурса проходят в лабораторию и получают стипендию на время обучения.

Изначально лаборатория создавалась в партнерстве с НИИ ППМИ БГУ, в первом наборе участвовало лишь несколько студентов ФПМИ, которых на программу лично приглашали руководители компании. С 2015 года мы уже трижды набирали в лабораторию студентов, обучали их и выпускали готовых к самостоятельной работе специалистов.

В мае у нас состоялся очередной выпуск. Интересно, что в этом году в отборочном конкурсе приняли участие не только студенты, но и специалисты с большим опытом работы, желающие развиваться в Data Science, также расширяется география участников. Нас это очень радует, так как растущий интерес означает, что мы занимаемся полезным делом.

После окончания нашей лаборатории у участников, как правило, не возникает проблем с поиском интересной работы, многие остаются работать в InData Labs. В этом году 50% выпускников лаборатории присоединились к нашей команде. Две наши выпускницы прошли стажировку в Google, одной из них Google недавно сделал оффер.

Наши выпускники подтверждают, что они одни из лучших в мире. Двое участников лаборатории получили "серебряные медали" в конкурсе по обработке естественного языка для "Quora" на Kaggle, войдя в Топ-5% из 3300 участников.

Если хотите взглянуть на лабораторию InData Labs глазами наших студентов, читайте отзывы участников, которые уже прошли обучение в лаборатории:

InData Labs Data Science Laboratory

"Работа в лаборатории оказалась очень полезной, так как в процессе я познакомилась с рядом новых задач. Я узнала много нового об обработке текста, нейронных сетях и инструментах визуализации данных. Мы попробовали решать интересные задачи и сравнивать свои подходы. Познакомилась с прогнозированием временных рядов”.

Евгения Жданович

InData Labs Data Science Laboratory“Просто удивительно полезно! Изначально я ожидал, что курс будет иметь "теоретическую" направленность - что-то вроде по лекции каждую неделю от сотрудников InData Labs, а практика уже самостоятельно и дома. Но предложенный подход, когда бОльшая часть времени уделяется нашей практической подготовке, мне понравился гораздо больше :)”.

Павел Филипович

InData Labs Data Science Laboratory“Посещение лаборатории оказалось для меня весьма продуктивным. Было несколько задач по обработке естественного языка, чему я очень рад, так как эта тема связана с моей дипломной работой :) Очень полезной оказалась работа в команде, которая заставляет смотреть на проблему с разных сторон и помогает синтезировать идеи”.

Антон Кулеш

InData Labs Data Science Laboratory“Главное - это общение. На встречах всегда было интересно обсуждать различные методы и подходы решения задач, делиться своими решениями и знакомиться с решениями коллег. Особо отмечу участие в процессе сотрудников команды InData Labs, которые давали ценные рекомендации и советы не только на встречах, но и в Slack.”

Евгений Мамуль

Мы постоянно работаем над улучшением программы и формата обучения. Например, программа следующего этапа, который стартует в сентябре 2017 года, будет расширена. Мы планируем добавить теоретические и практические занятия по программной инженерии, разработке алгоритмов для параллельной обработки больших объемов данных и высоких нагрузок. Эти навыки очень важны для запуска успешных data science проектов. Мы убедились в этом на собственном опыте, и нам есть чем поделиться с участниками лаборатории.

Если ты хочешь попасть в Data Science лабораторию InData Labs, подписывайся на наш блог или на нашу страницу в Facebook, чтобы первым узнать о начале следующего набора.

По любым вопросам пишите нам на [email protected]

0
КОРПБЛОГИ

InData Labs объявляет конкурс для тех, кто любит математику и мечтает об одной из самых востребованных профессий XXI века - Data Scientist. Победители конкурса смогут попасть в нашу R&D Data Science лабораторию. 

Читать далее
© 2008–2021 ЗАО «Дев Бай Медиа»
Перепечатка материалов dev.by возможна только с письменного разрешения редакции.
При цитировании обязательна прямая гиперссылка на соответствующие материалы. Пишите на [email protected].