Google улучшила модели распознавания и синтеза речи и снизила цены

Оставить комментарий
Google улучшила модели распознавания и синтеза речи и снизила цены

Команда Google Cloud анонсировала ряд обновлений API для синтеза и понимания речи, которые помогут разработчикам строить более эффективные интеллектуальные голосовые приложения и охватить более широкую аудиторию, пишет ZDNet.

Google расширила API для синтеза речи Text-to-Speech — он получил новые языки и голоса. Кроме того, разработчики улучшили качество инструмента распознавания речи Speech-to-Text, а также открыла свободный доступ к некоторым его возможностям.

Text-to-Speech теперь поддерживает 7 новых языков: русский, польский, украинский, словацкий, норвежский, датский и португальский. Всего вместе с ними сервис насчитывает 21 язык. Помимо этого, Google добавила 31 голос генерирующей нейросети WaveNet и 24 стандартных голоса — всего их теперь 106.

Также Google открыла для всех функционал Device Profiles, который позволяет оптимизировать сгенерированное аудио для воспроизведения на различных типах устройств, например в наушниках.

Что касается транскрибатора Speech-to-Text, Google более чем на 60 процентов уменьшила количество ошибок в моделях распознавания речи в телефонных и видео-звонках. Бета-версии моделей вышли в прошлом году, а теперь они стали общедоступны. Также для всех открыт инструмент, который помогает API Speech-to-Text распознавать различные звуковые каналы. Это может пригодиться, например, в случае диалогов между несколькими людьми.

Наконец, Google на треть снизила стоимость сервиса Speech-to-Text для участников специальной программы, в рамках которой пользователи позволяют компании использовать свои данные для тренировки моделей.

Хотите сообщить важную новость? Пишите в Телеграм-бот.

А также подписывайтесь на наш Телеграм-канал.

Читайте также

Появилась нейросеть, которая распознаёт сарказм
Появилась нейросеть, которая распознаёт сарказм
Появилась нейросеть, которая распознаёт сарказм
Подборка сервисов по расшифровке аудио от Самата Галимова
Подборка сервисов по расшифровке аудио от Самата Галимова
Подборка сервисов по расшифровке аудио от Самата Галимова
Появилось приложение для видеозвонков, которое превращает пижаму в костюм, а пользователя — в кого угодно
Появилось приложение для видеозвонков, которое превращает пижаму в костюм, а пользователя — в кого угодно
Появилось приложение для видеозвонков, которое превращает пижаму в костюм, а пользователя — в кого угодно
2 комментария
В MIT создали нейросеть, которая вычисляет бессимптомный COVID-19 по кашлю пациента
В MIT создали нейросеть, которая вычисляет бессимптомный COVID-19 по кашлю пациента
В MIT создали нейросеть, которая вычисляет бессимптомный COVID-19 по кашлю пациента
2 комментария

Обсуждение

Комментариев пока нет.
Спасибо! 

Получать рассылки dev.by про белорусское ИТ

Что-то пошло не так. Попробуйте позже