«Будем собирать датасет в соцсетях». Для чего минская команда делает бота, который читает по губам, и как потратит 2000 рублей от Мельничка

Cтартап
1 марта 2019, 09:20

Минчане Полина Сидорук и Дмитрий Клименков делают приложение для людей, потерявших голос. Сервис будет работать следующим образом: человек подносит к губам телефон и «говорит» на фронтальную камеру — а программа по движению его губ распознаёт слова и фразы. На недавнем хакатоне Social Weekend проект Visper получил 2 тысячи BYN от бизнесмена Юрия Мельничка.

dev.by пообщался с создателями проекта и узнал о перспективах Visper.

«Больные общаются с помощью записок — носят с собой бумагу и ручку»

— У нас нет «красивой» истории о том, как кто-то из знакомых потерял голос из-за болезни, — признаётся CEO проекта Полина Сидорук, когда её спрашивают, как появилась идея приложения.

Разработчик Дмитрий Клименков случайно наткнулся на статьи о технологии, ориентированной на чтение по губам, над которой работают британские учёные, — LipNet. Идея ему показалась интересной, молодой человек решил «развить её во что-то своё». Рассказал о задумке подруге — и ребята пришли к выводу, что это может быть полезно людям.

Полина рассказывает, что в конечном итоге Visper станет сервисом, который смогут применять люди с афонией, перенесшие операцию по удалению рака гортани или другие вмешательства.

— Мы говорили с врачами: сейчас общение таких пациентов с тем же медперсоналом в течение всего реабилитационного периода очень затруднено. По словам медиков, больные сообщают им о своих желаниях и самочувствии с помощью записок — повсюду носят с собой бумагу и ручку. Наше приложение поможет им в коммуникации: Visper будет распознавать движение их губ и воспроизводить — либо в синтезированную речь, либо в текст.

«Нейросеть подключили к боту. В будущем Visper станет приложением»

Сейчас у ребят есть модель для распознавания речи по словам: она натренирована на ограниченном наборе — за недавний хакатон ребята смогли внести в базу 20 английских слов.

— Английский датасет было проще собрать, — поясняет Полина выбор языка. — Чтобы обучить сеть, нужны десятки минут видеозаписей — нарезки, где люди снова и снова повторяют одни и те же слова. Сейчас мы перепиливаем Visper, чтобы бот «понимал» также и русские слова.

Разработка проекта началась пару месяцев назад. Пока Visper — бот. Ребята говорят, в такой реализации проект проще всего было запилить за хакатон и показать жюри. Так они и поступили — сделали модель нейросети и подключили её к Telegram-боту.

— Но, конечно, в будущем Visper станет отдельным мобильным приложением.  

Ребята рассказывают, что планируют делать его под iOS и активно ищут в команду iOS-разработчика. Также стартаперы нуждаются в помощи врачей, которые могли бы присоединиться к команде.

«Главная проблема — отсутствие набора данных для обучения сети»

Что ещё предстоит сделать стартаперам — модель для распознавания по фразам, её они и будут считать за MVP.

Самая главная проблема команды — отсутствие большого набора данных для обучения сети. Ведь нужно, «чтобы программа „понимала“, что слово может быть произнесено так, а может и этак — и это всё то же слово», — говорит Полина.

На вопрос, как разработчики собираются её решать, девушка отмечает: «Будем собирать датасет в соцсетях, бросим клич о помощи: записать несколько видео — дело 3-4 минут. Так „с миру по нитке“ мы получим целый набор».

Также Дмитрий делает модель, которая будет анализировать ролики из YouTube и расшивать их на видеоряд и субтитры. И на этих данных тоже будет обучаться нейросеть.  

Ребята говорят, что сама модель приложения у них есть: «На хакатоне мы хорошо над этим поработали. Остаётся её закончить, оптимизировать и обучить». Плюс разработчики планируют «выйти на людей, для которых непосредственно это делают», чтобы услышать мнение пользователей.

Деньги от Мельничка — на видеокарту: «На одну как раз хватит»

Полина признаётся, что даже вопроса не стояло, на что потратить 2 тысячи BYN, которые они получат от Юрия Мельничка: «Ещё до хакатона мы говорили, что нам нужно железо для разработчиков — чтобы обучить нейросеть, нужны серьёзные ресурсы, в том числе graphics processing units, то есть видеокарты. На одну нам как раз хватит».

Полина и Дмитрий говорят, что в идеале им нужно 5-6 таких карт: «это ускорит процесс работы».  

Стартаперы изучают возможности монетизации приложения, но не исключают, что также оно останется бесплатным. И обещают в любом случае довести разработку до конца.

Почему Visper присудили номинацию: «Продукт обрёл актуальность для рынка»  

dev.by попытался узнать у Юрия Мельничка, чем покорил бизнесмена Visper, что он отдал денежный приз этому проекту. Однако наш собеседник заметил, что в этот раз он не был на хакатоне и лишь «спонсировал номинацию». Сооснователь Bulba Ventures всегда поддерживает на Social Weekend проекты, связанные с образованием, медициной и здоровым образом жизни.

Руководитель конкурса Александр Скрабовский пояснил dev.by, «когда Юрий не может присутствовать на финальных ивентах, он доверяет право присуждения номинации жюри». Так было и в этот раз.

Александр добавил, что после презентации у жюри возникло несколько технических вопросов к создателям Visper. «С остальным у ребят было всё хорошо, в том числе и потому, что на хакатоне они сделали пивот, — и продукт обрёл актуальность для рынка. Это и сыграло ключевую роль при присуждении номинации».

По словам Александра, ребята «попали в трек обучения, получили 2 тысячи рублей и право побороться за 75 тысяч рублей в тринадцатом сезоне Social Weekend».  

Обсуждение