Подборка сервисов по расшифровке аудио от Самата Галимова

Самат Галимов, бывший CTO «Медузы» и нынешний партнёр «Феди и Самата», собрал в один пост в своем телеграм-канале «Запуск завтра» сервисы по переводу аудио в текст. С разрешения автора публикуем этот разбор.

Оставить комментарий

Самат Галимов, бывший CTO «Медузы» и нынешний партнёр «Феди и Самата», собрал в один пост в своем телеграм-канале «Запуск завтра» сервисы по переводу аудио в текст. С разрешения автора публикуем этот разбор.

— У меня на руках было 18 часов аудиозаписей, которые нужно было перевести в текст. Как расшифровать аудио в текст?

Можно заплатить профессионалам (сервис zapisano). Можно самому всё слушать и печатать, это сложная и долгая работа.

Я решил скормить аудио дорожки машине и исправить трудные для алгоритма слова руками в специальном редакторе.

Для текстов на английском языке есть совершенно космический редактор — Descript. В нём редактируешь текст, а он при этом сам переставляет местами нужные куски аудио. Прорыв для редактуры подкастов, пока, к сожалению, для нас недоступный.

С поддержкой русского выбор немного сужается, но всё равно есть очень классные сервисы: 

Продукты отличаются моделью ценообразования и вниманием к деталям.

Эти сервисы не разрабатывают алгоритмы распознавания речи. Я уверен, что они пользуются облачными API одного из крупных игроков — у гугла эта штука называется Google Cloud Speech-to-Text. Практически идентичные решения есть у Яндекса, Амазона и Microsoft.

По стоимости: расшифровка часа видеозвонка в Google стоит 2.16$, у Яндекса — 0.46$, а в Sonix — от 5 до 10$, остальные сервисы ещё дороже. Для сравнения, профессиональная расшифровка с русского — около 23$ за час.

Даже с крутым сервисом, работа заняла у меня больше 40 часов. Я сильно недооценил необходимый объём труда.


Кстати, у Google есть вариант «поделиться своими аудиозаписями с Google для улучшения моделей распознавания». Тогда они дают скидку в 30% и берут за распознавания речи только 1.44$ в час.

Есть идея, что компании должны платить нам за наши данные. Это — первый известный мне пример реализации этой идеи на практике.

Хотите сообщить важную новость? Пишите в Телеграм-бот.

А также подписывайтесь на наш Телеграм-канал.

Горячие события

Dell Technologies Forum CEE
26 ноября

Dell Technologies Forum CEE

HRgile.club
2 декабря

HRgile.club

Минск

Читайте также

Amazon опубликовала датасет для распознавания речи на фоне шума
Amazon опубликовала датасет для распознавания речи на фоне шума
Amazon опубликовала датасет для распознавания речи на фоне шума
Google открыла код голосового движка Live Transcribe
Google открыла код голосового движка Live Transcribe
Google открыла код голосового движка Live Transcribe
Google будет автоматически транскрибировать подкасты
Google будет автоматически транскрибировать подкасты
Google будет автоматически транскрибировать подкасты
1 комментарий
Новая система распознавания голоса Google теперь работает мгновенно и офлайн
Новая система распознавания голоса Google теперь работает мгновенно и офлайн
Новая система распознавания голоса Google теперь работает мгновенно и офлайн

Обсуждение

Комментариев пока нет.
Спасибо! 

Получать рассылки dev.by про белорусское ИТ

Что-то пошло не так. Попробуйте позже