«Хотим придумать более понятное озвучивание кода из технических статей». Белорус сделал расширение, которое озвучивает тексты на 20 языках и стало «выбором редакции» Chrome

5 июня 2019, 14:08

Белорус Виталий Зданевич два года назад взялся за разработку продукта по преобразованию текста в речь. Сегодня расширение для браузера Intelligent Speaker позволяет слушать страницы и файлы на 20 языках, у сервиса более 25 тысяч зарегистрированных пользователей, большинство которых из США.

Неделю назад разработка оказалась на главном баннере Chrome Web Store и до сих пор остаётся в «выборе редакции».

dev.by поговорил с Виталием об адаптации текста в звук и перспективах голосовых сервисов. 

Intelligent Speaker — продукт небольшой компании WaveOC, где работает Виталий Зданевич.

— Я — инициатор проекта и основной разработчик, так что продукт можно назвать моим и компании WaveOC, где я работаю. Помимо меня проект курирует мой непосредственный руководитель, иногда помогают маркетолог и техлид.

У Виталия нет профильного высшего образования. После школы он год отучился в Минском колледже хлебопечения на пекаря, также учился на экономиста в Минском техникуме предпринимательства и несколько лет играл в театрах. Но в 2012 году решил попробовать себя в ИТ-индустрии. Для этого пошёл на курсы BIGsoft, потом были курсы BelHard и образовательного центра ПВТ, работал в компаниях.

— Еще до начала работы над Intelligent Speaker я для себя писал скрипты, чтобы преобразовывать длинные тексты, то есть статьи, книги, форумы, в аудио, копировать на телефон и слушать в пути. Игрался в том числе и с новыми голосовыми технологиями Яндекса, когда они только появились и были ещё бесплатными.

Поворотной точкой стал 2016 год, когда Amazon выпустил Amazon Polly (облачная служба Amazon Web Services, которая преобразует текст в речь). Предложил идею проекта внутри инкубатора компании и пошла разработка. На тот момент уже существовали похожие text-to-speech расширения для браузеров, но они выглядели хуже и ни у кого не было этого лучшего голоса от Amazon.

Как работает расширение

Intelligent Speaker преобразует в речь документы Google, txt, docx, pdf, позволяя слушать книги, статьи, новости, презентации и любой письменный контент. Добавленное аудио можно слушать оффлайн — блобы сохраняются в браузерный IndexedDB. Для пользователей доступны 20 языков, в том числе добавленный недавно тамильский язык — все, что были в Polly и Azure. Белорусского голоса нет. 

По словам Виталия Зданевича, расширение весит около 60 килобайт, не требует разрешений при установке и не «ест» оперативную память, когда не используется: «Посмотрите на Evernote Clipper, после установки которого браузер начинает тормозить». 

Для телефона программы пока нет — пользователь получает ссылку на свой персональный подкаст фид и может слушать его с существующими подкаст и RSS читалками. Возможно, команда подумает над тем, чтобы сделать в перспективе мобильное приложение с рекомендациями.

Пользователи и монетизация

У расширения 25 тысяч пользователей, 90% — из США. Intelligent Speaker ориентирован в основном на b2c. Но, например, к сервису проявили интерес американские педагоги и студенты, которые используют его в школах. Часть пользователей живёт с дислексией или имеют проблемы со зрением.

Сервис предоставляется по модели подписки, точнее freemium с лимитом у бесплатных пользователей на час контента в месяц. Но пока проект не прибыльный: много времени ушло на его разработку и переделки,  пользователей пока мало.

— Но, может быть, в этом году проект станет финансово состоятельным. Неделю назад был пик активности пользователей — в сутки около тысячи новых зарегистрированных аккаунтов — когда мы оказались на главном баннере Chrome Web Store. Но и сейчас мы остаёмся в «выборе редакции».

Денег на рекламу не тратили, только growth hacking партизанский маркетинг. Я искал на Quora, Reddit, через Google Alerts тех, кто интересуется подобными продуктами и подкастами, обсуждает, и отвечал им, рассказывая о сервисе.

Перспективы голосовых сервисов

— Сегодня не для всего текста есть аудиоверсия, которую удобно «потреблять» в пути. Поэтому голосовые сервисы будут всё более популярными и потребление голосовых данных будет расти. По информации некоторых изданий, половина американцев регулярно слушают подкасты. Microsoft, Yandex, Google, Amazon развивают свои голосовые решения.

Мы также собираемся развивать Intelligent Speaker. Хотим, чтобы сервис по-умному мог преобразовывать, например, текстовую информацию с форумов, где ведутся дискуссии. Чтобы можно было слушать многочасовые беседы на Reddit и понимать, кто кому отвечает. 

В Polly и прочих движках можно тюнить интонацию речи, скорость, ударения — все это можно использовать для аудиального «форматирования» контента. На прошлой неделе экспериментировал с открытыми проектами на machine learning, где синтез голоса происходит на GPU — иногда речь удивительно качественная. Также, возможно, добавим озвучивание картинок (есть сервисы и открытые библиотеки для распознавания объектов). Может быть, придумаем и более понятное озвучивание кода из технических статей.

Хотим, чтобы это был не тупой текст, преобразованный в речь, а умная адаптация текстового контента для восприятия ушами. Такого пока нигде нет.

Обсуждение