В минской Silk Data написали большой гайд по машинному обучению

5 комментариев
В минской Silk Data написали большой гайд по машинному обучению

В компании Silk Data около года писали почти 100-страничное руководство по машинному обучению и опубликовали его на своём сайте для бесплатного ознакомления.

Слева направо: Юрий Свирид, Евгений Калоша, Николай Карелин, Максим Кублицкий

Слева направо: Юрий Свирид, Евгений Калоша, Николай Карелин, Максим Кублицкий

Юрий Свирид и Евгений Калоша, кандидаты технических наук в различных разделах информационных технологий, основали свою первую компанию «МиС–Софтпродукт» в 1996 году. Начинали с аутсорсинга, а в 2013-м приступили к разработке собственного продукта, который компания и по сей день успешно продаёт вместе с немецким партнёром в рамках компании Silk Code. Этот продукт помогает издательствам, в первую очередь немецкоязычным, в распространении продукции.

Около года назад компания стала больше фокусироваться на предоставлении консалтинговых услуг и разработке продуктов в области искусственного интеллекта и машинного обучения. Новая сфера деятельности — новый бренд. Так появилась компания Silk Data, воплотив желание связать Silk Code с новым направлением бизнеса. Юрий является директором Silk Data, Евгений — техническим директором. «Почувствовали большой интерес у рынка, плюс активно начала формироваться собственная экспертиза в этой области», — объяснили в команде.

Как Amazon, только нон-фикшн

Один из клиентов-аутсорсеров привёз в 2012 году в Беларусь троих знакомых немцев. Один из них предложил создать приложение. Из него позже и выросла платформа. Проект назвали Silk Code.

— Нам уже нужно было идти к нотариусу регистрировать название фирмы, мы сидим в машине, думаем, как назвать. Спрашиваем, что интересного есть в маленьком городе Крефельде, откуда был наш немецкий партнер. Оказывается, в 17 веке там работали шёлковые и бархатные мануфактуры, которые снабжали королевские дворы. Поэтому и решили назвать Silk Code — хотим быть поставщиками чего-то особенного, — объяснил Юрий.

Платформа, выпускаемая компанией Silk Code, позволяет клиентам смотреть специализированную литературу: справочники, книги, журналы, учебники. В неё встроен интеллектуальный поиск, возможность комментариев.

Юрий Свирид, сооснователь и директор Silk Data

Юрий Свирид, сооснователь и директор Silk Data

— Это платформа для небольших издательств, которые не в состоянии выйти на рынок, самостоятельно подготовить приложение, распространить свою продукцию в электронном виде, — уточнил Евгений. — Издательства загружают свои материалы на нашу платформу в формате pdf, а конечный пользователь открывает их на компьютерах или мобильных устройствах.

Один из крупных заказчиков — сеть образовательных учреждений в Швейцарии. Её конечные клиенты — частные школы. За шесть лет минская компания «получила» половину частных школ этой страны, рассказал Юрий. Ученики могут не только читать нужные главы учебника, но и делать заметки, делиться информацией с учителем и другими учащимися, а также искать объяснение новым понятиям в Google или «Википедии». Ещё один заказчик — крупное немецкое издательство «Форум».

— Amazon можно считать конкурентом, но он занимает нишу «фикшн» (худлит, беллетристика), а у нас — нон-фикшн. Мы заняли нишу специализированных изданий. Amazon продаёт дешевые книги, у нас же дорогая продукция для специалистов. Чаще всего её покупает не сам специалист, а фирма, где тот работает, — добавил Евгений.

Конечный пользователь платит издательству, а оно — за платформу. Белорусский офис полностью сфокусирован на технической части бизнеса, продвижением же занимается немецкая сторона.

Машинное обучение: руководство по эксплуатации

— В 2017 году два заказчика чуть ли не одновременно связались с нами с просьбой разъяснить суть искусственного интеллекта. Мы подготовили минимальные презентации. Также я рассказывал больше двух часов про машинное обучение в ПВТ, где есть образовательная программа. Постепенно поняли, что наши знания можно оформить иначе и сделать небольшую книгу. Пришли к такой идее, потому что вынуждены часто объяснять клиентам матчасть, чтобы лучше наладить совместную работу, — сказал руководитель команды ИИ, кандидат физико-математических наук Николай Карелин.

Николай Карелин, руководитель команды ИИ

Николай Карелин, руководитель команды ИИ

На создание брошюры команду мотивировала не столько необходимость контент-маркетинга, сколько потребность образовывать клиентов. В компании заметили, что интерес к теме возникает быстрее, чем соответствующий уровень знаний, а для успешного сотрудничества с заказчиком необходимо, чтобы он трезво оценивал свои перспективы, понимал, с чем работает, был способен оценить риски. Была идея создать не очередную маркетинговую брошюру, а честное руководство по эксплуатации машинного обучения для собственников бизнеса. 

В частности, многие собственники традиционных бизнесов видят новую «волну» и изменения в других областях бизнеса, которые приносят анализ данных, рекомендательные системы и другие современные решения на основе машинного обучения.

— С другой стороны, — продолжил Юрий, — как показывают последние исследования немецкого рынка, в некоторых отраслях больше половины собственников или руководителей не понимают, как применять новые достижения ИИ для своего бизнеса. Дело в том, что многие люди из традиционного бизнеса считают, что ИИ — это удел технических стартапов или больших корпораций. Зачастую бизнес даже не понимает, есть ли у него данные для реализации решений на основе машинного обучения.

Работа над руководством затянулась почти на год. Часто приходилось откладывать на какое-то время, так как всё делали своими силами, не привлекая агентства со стороны. Материал выложен в свободный доступ, поэтому скачать может каждый желающий.

В компании уточнили, что он подойдёт и для обучения студентов.

Работа над продвинутым поисковиком

— Среди ближайших планов — сделать собственный продукт на базе искусственного интеллекта, который мог бы понимать смысл текста. В шутку назвали проект кодовой фразой «Понимание мира», — продолжил директор.

Евгений показал на экране модель, где статьи «Википедии» организованы по принципу близости тем. Изображение создано из 900 тысяч точек, где каждая — это отдельная статья. В местах наибольшей плотности точек статьи имеют близкую тематику.

Евгений Калоша, сооснователь и технический директор Silk Data

Евгений Калоша, сооснователь и технический директор Silk Data

— Мы можем смотреть на это «облако» и видеть, как темы взаимосвязаны друг с другом, как переходят одна в другую. Такая технология позволяет анализировать не только «Википедию», но и любой другой неструктурированный или полу-структурированный текст: например, медицинские статьи, правила дорожного движения. Используя этот движок можно сделать много интересных вещей, — уточнил Евгений.

— В наших планах интеллектуальный поиск. То есть, поиск, в котором система, учитывая определённый контекст — например, что я врач — отбирала бы в материалах по, скажем, пожарной безопасности необходимую врачу информацию: ожоги, травмы. Это позволит вывести текущие поисковые системы на совершенно иной уровень, — добавил Юрий.

В идеале такой функционал должен быть предоставлен пользователю в виде всего одной поисковой строки. Например, исследуя свод законов, специалист сможет задать в строке определённый контекст, и умная поисковая система «подтянет» нужную информацию из всего корпуса документа. Это позволит экономить существенные временные ресурсы.

Первые результаты уже есть, к концу лета в команде хотят получить отлаженный вариант и осенью интегрировать его в своё решение для издательств.

По теме
Все материалы по теме

Хотите сообщить важную новость?

Пишите в наш Телеграм

Горячие события

Конкурс EY Entrepreneur Of The Year 2020
31 мая

Конкурс EY Entrepreneur Of The Year 2020

EMERGE 2020
1 июня — 3 июня

EMERGE 2020

Вебинар «Советы от рекрутеров: как найти квалифицированную работу в Европе»
4 июня

Вебинар «Советы от рекрутеров: как найти квалифицированную работу в Европе»

Читайте также

В Беларуси более 36 тысяч случаев заражения коронавирусом
В Беларуси более 36 тысяч случаев заражения коронавирусом

В Беларуси более 36 тысяч случаев заражения коронавирусом

1 комментарий
Число случаев заражения коронавирусом в Беларуси выросло до 35,2 тысячи
Число случаев заражения коронавирусом в Беларуси выросло до 35,2 тысячи

Число случаев заражения коронавирусом в Беларуси выросло до 35,2 тысячи

Мидлу – $5,5 тысяч, сеньору – $25 тысяч. Узнали потолок зарплат при найме
Мидлу – $5,5 тысяч, сеньору – $25 тысяч. Узнали потолок зарплат при найме

Мидлу – $5,5 тысяч, сеньору – $25 тысяч. Узнали потолок зарплат при найме

Почти 10% ИТ-специалистов в апрельском опросе dev.by сообщили, что проектов у них стало больше, а в компаниях штат растет, несмотря на кризис. Мы поискали на jobs.dev.by самые «дорогие» вакансии для айтишников.
16 комментариев
Проект «Учитель для Беларуси» набирает педагогов на новую программу
Проект «Учитель для Беларуси» набирает педагогов на новую программу

Проект «Учитель для Беларуси» набирает педагогов на новую программу

3 комментария

Обсуждение

-1

Всё хорошо но только сайт silkdata.ai лежит..

Nikolay Karelin
Nikolay Karelin Head of AI в Silk Data
1

Пробовал открывать только что через двух провайдеров - работает. Может, у вас в сети затык...

0

странно, ip адрес резолвится, а браузеры говорят "время ожидания истекло"

0

Я как создатель своей "книги" могу сказать, что pdf это выходной формат, а исходным лучше иметь DocBook из которого можно сделать все остальные выходные форматы.

Nikolay Karelin
Nikolay Karelin Head of AI в Silk Data
1

К сожалению, доступ к исходникам есть далеко не всегда. И очень многие издательства пользуются какими-то очень специфическими PDF-генераторами (я говорю не про наших партнеров, а в целом по рынку), с проприетарными входныи форматами. В общем, работа с "негибкими" PDF - это большая боль (а для кого-то способ заработка) еще лет на 10-15.

Спасибо! 

Получать рассылки dev.by про белорусское ИТ

Что-то пошло не так. Попробуйте позже