Google улучшила модели распознавания и синтеза речи и снизила цены

Оставить комментарий
Google улучшила модели распознавания и синтеза речи и снизила цены

Команда Google Cloud анонсировала ряд обновлений API для синтеза и понимания речи, которые помогут разработчикам строить более эффективные интеллектуальные голосовые приложения и охватить более широкую аудиторию, пишет ZDNet.

Google расширила API для синтеза речи Text-to-Speech — он получил новые языки и голоса. Кроме того, разработчики улучшили качество инструмента распознавания речи Speech-to-Text, а также открыла свободный доступ к некоторым его возможностям.

Text-to-Speech теперь поддерживает 7 новых языков: русский, польский, украинский, словацкий, норвежский, датский и португальский. Всего вместе с ними сервис насчитывает 21 язык. Помимо этого, Google добавила 31 голос генерирующей нейросети WaveNet и 24 стандартных голоса — всего их теперь 106.

Также Google открыла для всех функционал Device Profiles, который позволяет оптимизировать сгенерированное аудио для воспроизведения на различных типах устройств, например в наушниках.

Что касается транскрибатора Speech-to-Text, Google более чем на 60 процентов уменьшила количество ошибок в моделях распознавания речи в телефонных и видео-звонках. Бета-версии моделей вышли в прошлом году, а теперь они стали общедоступны. Также для всех открыт инструмент, который помогает API Speech-to-Text распознавать различные звуковые каналы. Это может пригодиться, например, в случае диалогов между несколькими людьми.

Наконец, Google на треть снизила стоимость сервиса Speech-to-Text для участников специальной программы, в рамках которой пользователи позволяют компании использовать свои данные для тренировки моделей.

Хотите сообщить важную новость? Пишите в Телеграм-бот.

А также подписывайтесь на наш Телеграм-канал.

Читайте также

Google и SpaceX будут вместе развивать космический интернет-проект Starlink
Google и SpaceX будут вместе развивать космический интернет-проект Starlink
Google и SpaceX будут вместе развивать космический интернет-проект Starlink
Дипфейки можно распознавать по отражению в глазах
Дипфейки можно распознавать по отражению в глазах
Дипфейки можно распознавать по отражению в глазах
Появилась нейросеть, которая распознаёт сарказм
Появилась нейросеть, которая распознаёт сарказм
Появилась нейросеть, которая распознаёт сарказм
Подборка сервисов по расшифровке аудио от Самата Галимова
Подборка сервисов по расшифровке аудио от Самата Галимова
Подборка сервисов по расшифровке аудио от Самата Галимова
1 комментарий

Обсуждение

Комментариев пока нет.
Спасибо! 

Получать рассылки dev.by про белорусское ИТ

Что-то пошло не так. Попробуйте позже