В минской Silk Data написали большой гайд по машинному обучению

12 августа 2019, 08:28

В компании Silk Data около года писали почти 100-страничное руководство по машинному обучению и опубликовали его на своём сайте для бесплатного ознакомления.

Слева направо: Юрий Свирид, Евгений Калоша, Николай Карелин, Максим Кублицкий

Слева направо: Юрий Свирид, Евгений Калоша, Николай Карелин, Максим Кублицкий

Юрий Свирид и Евгений Калоша, кандидаты технических наук в различных разделах информационных технологий, основали свою первую компанию «МиС–Софтпродукт» в 1996 году. Начинали с аутсорсинга, а в 2013-м приступили к разработке собственного продукта, который компания и по сей день успешно продаёт вместе с немецким партнёром в рамках компании Silk Code. Этот продукт помогает издательствам, в первую очередь немецкоязычным, в распространении продукции.

Около года назад компания стала больше фокусироваться на предоставлении консалтинговых услуг и разработке продуктов в области искусственного интеллекта и машинного обучения. Новая сфера деятельности — новый бренд. Так появилась компания Silk Data, воплотив желание связать Silk Code с новым направлением бизнеса. Юрий является директором Silk Data, Евгений — техническим директором. «Почувствовали большой интерес у рынка, плюс активно начала формироваться собственная экспертиза в этой области», — объяснили в команде.

Как Amazon, только нон-фикшн

Один из клиентов-аутсорсеров привёз в 2012 году в Беларусь троих знакомых немцев. Один из них предложил создать приложение. Из него позже и выросла платформа. Проект назвали Silk Code.

— Нам уже нужно было идти к нотариусу регистрировать название фирмы, мы сидим в машине, думаем, как назвать. Спрашиваем, что интересного есть в маленьком городе Крефельде, откуда был наш немецкий партнер. Оказывается, в 17 веке там работали шёлковые и бархатные мануфактуры, которые снабжали королевские дворы. Поэтому и решили назвать Silk Code — хотим быть поставщиками чего-то особенного, — объяснил Юрий.

Платформа, выпускаемая компанией Silk Code, позволяет клиентам смотреть специализированную литературу: справочники, книги, журналы, учебники. В неё встроен интеллектуальный поиск, возможность комментариев.

Юрий Свирид, сооснователь и директор Silk Data

Юрий Свирид, сооснователь и директор Silk Data

— Это платформа для небольших издательств, которые не в состоянии выйти на рынок, самостоятельно подготовить приложение, распространить свою продукцию в электронном виде, — уточнил Евгений. — Издательства загружают свои материалы на нашу платформу в формате pdf, а конечный пользователь открывает их на компьютерах или мобильных устройствах.

Один из крупных заказчиков — сеть образовательных учреждений в Швейцарии. Её конечные клиенты — частные школы. За шесть лет минская компания «получила» половину частных школ этой страны, рассказал Юрий. Ученики могут не только читать нужные главы учебника, но и делать заметки, делиться информацией с учителем и другими учащимися, а также искать объяснение новым понятиям в Google или «Википедии». Ещё один заказчик — крупное немецкое издательство «Форум».

— Amazon можно считать конкурентом, но он занимает нишу «фикшн» (худлит, беллетристика), а у нас — нон-фикшн. Мы заняли нишу специализированных изданий. Amazon продаёт дешевые книги, у нас же дорогая продукция для специалистов. Чаще всего её покупает не сам специалист, а фирма, где тот работает, — добавил Евгений.

Конечный пользователь платит издательству, а оно — за платформу. Белорусский офис полностью сфокусирован на технической части бизнеса, продвижением же занимается немецкая сторона.

Машинное обучение: руководство по эксплуатации

— В 2017 году два заказчика чуть ли не одновременно связались с нами с просьбой разъяснить суть искусственного интеллекта. Мы подготовили минимальные презентации. Также я рассказывал больше двух часов про машинное обучение в ПВТ, где есть образовательная программа. Постепенно поняли, что наши знания можно оформить иначе и сделать небольшую книгу. Пришли к такой идее, потому что вынуждены часто объяснять клиентам матчасть, чтобы лучше наладить совместную работу, — сказал руководитель команды ИИ, кандидат физико-математических наук Николай Карелин.

Николай Карелин, руководитель команды ИИ

Николай Карелин, руководитель команды ИИ

На создание брошюры команду мотивировала не столько необходимость контент-маркетинга, сколько потребность образовывать клиентов. В компании заметили, что интерес к теме возникает быстрее, чем соответствующий уровень знаний, а для успешного сотрудничества с заказчиком необходимо, чтобы он трезво оценивал свои перспективы, понимал, с чем работает, был способен оценить риски. Была идея создать не очередную маркетинговую брошюру, а честное руководство по эксплуатации машинного обучения для собственников бизнеса. 

В частности, многие собственники традиционных бизнесов видят новую «волну» и изменения в других областях бизнеса, которые приносят анализ данных, рекомендательные системы и другие современные решения на основе машинного обучения.

— С другой стороны, — продолжил Юрий, — как показывают последние исследования немецкого рынка, в некоторых отраслях больше половины собственников или руководителей не понимают, как применять новые достижения ИИ для своего бизнеса. Дело в том, что многие люди из традиционного бизнеса считают, что ИИ — это удел технических стартапов или больших корпораций. Зачастую бизнес даже не понимает, есть ли у него данные для реализации решений на основе машинного обучения.

Работа над руководством затянулась почти на год. Часто приходилось откладывать на какое-то время, так как всё делали своими силами, не привлекая агентства со стороны. Материал выложен в свободный доступ, поэтому скачать может каждый желающий.

В компании уточнили, что он подойдёт и для обучения студентов.

Работа над продвинутым поисковиком

— Среди ближайших планов — сделать собственный продукт на базе искусственного интеллекта, который мог бы понимать смысл текста. В шутку назвали проект кодовой фразой «Понимание мира», — продолжил директор.

Евгений показал на экране модель, где статьи «Википедии» организованы по принципу близости тем. Изображение создано из 900 тысяч точек, где каждая — это отдельная статья. В местах наибольшей плотности точек статьи имеют близкую тематику.

Евгений Калоша, сооснователь и технический директор Silk Data

Евгений Калоша, сооснователь и технический директор Silk Data

— Мы можем смотреть на это «облако» и видеть, как темы взаимосвязаны друг с другом, как переходят одна в другую. Такая технология позволяет анализировать не только «Википедию», но и любой другой неструктурированный или полу-структурированный текст: например, медицинские статьи, правила дорожного движения. Используя этот движок можно сделать много интересных вещей, — уточнил Евгений.

— В наших планах интеллектуальный поиск. То есть, поиск, в котором система, учитывая определённый контекст — например, что я врач — отбирала бы в материалах по, скажем, пожарной безопасности необходимую врачу информацию: ожоги, травмы. Это позволит вывести текущие поисковые системы на совершенно иной уровень, — добавил Юрий.

В идеале такой функционал должен быть предоставлен пользователю в виде всего одной поисковой строки. Например, исследуя свод законов, специалист сможет задать в строке определённый контекст, и умная поисковая система «подтянет» нужную информацию из всего корпуса документа. Это позволит экономить существенные временные ресурсы.

Первые результаты уже есть, к концу лета в команде хотят получить отлаженный вариант и осенью интегрировать его в своё решение для издательств.

По теме
Все материалы по теме
Обсуждение