Google открыла код ИИ-алгоритма, который распознаёт голоса с точностью 92%

Оставить комментарий
Google открыла код ИИ-алгоритма, который распознаёт голоса с точностью 92%

Исследователи Google AI опубликовали исходный код алгоритма для идентификации говорящих по их голосу, пишет VentureBeat.

Диаризация — процесс разделения потока речи на однородные сегменты в зависимости от принадлежности сказанного тому или иному говорящему, и этот процесс даётся непросто алгоритмам машинного обучения. Качественная система диаризации должна уметь соотносить с конкретными фрагментами речи новых людей, которых прежде не слышала.

В новой научной работе и соответствующей публикации в блоге компании исследователи из ИИ-подразделения Google описали новую интеллектуальную систему, которая способна более эффективно использовать маркированные данные по каждому спикеру при контролируемом обучении.

По словам авторов работы, ключевые алгоритмы достигают достаточно низкого коэффициента ошибок при распознавании дикторов онлайн: 7,6 процента на тестовом датасете для оценки качества таких систем NIST SRE 2000 CALLHOME — по сравнению с 8,8 процента у предыдущего метода Google.

Это позволяет использовать алгоритмы в приложениях, работающих в реальном времени. Их исходный код можно найти на GitHub.

Процесс диаризации аудиопотока. Каждый говорящий обозначен отдельным цветом.

Процесс диаризации аудиопотока. Каждый говорящий обозначен отдельным цветом.

Для моделирования «вставок» каждого спикера (математических представлений его слов и фраз) в новом подходе применяют рекуррентные нейросети, которые используют внутреннюю память для обработки последовательностей вводных данных. Нейросеть обновляется по мере поступления новых «вставок», что позволяет системе эффективно обучаться.

В будущем команда планирует усовершенствовать модель, чтобы она смогла интегрировать контекстуальную информацию для выполнения диаризации оффлайн — по мнению специалистов, это ещё больше снизит уровень ошибок.

Хотите сообщить важную новость?

Пишите в наш Телеграм

Читайте также

Свистни в Google и потей за iPhone. Короткие техновости на вечер
Свистни в Google и потей за iPhone. Короткие техновости на вечер
Свистни в Google и потей за iPhone. Короткие техновости на вечер
5 коротких техновостей на вечер.
В рейтинге глобальных брендов Microsoft обогнала Google
В рейтинге глобальных брендов Microsoft обогнала Google
В рейтинге глобальных брендов Microsoft обогнала Google
«Рупор идиотов»: экс-СЕО Google высказался про соцсети
«Рупор идиотов»: экс-СЕО Google высказался про соцсети
«Рупор идиотов»: экс-СЕО Google высказался про соцсети
4 комментария
Приложения Windows можно запускать на корпоративных хромбуках
Приложения Windows можно запускать на корпоративных хромбуках
Приложения Windows можно запускать на корпоративных хромбуках
1 комментарий

Обсуждение

Комментариев пока нет.
Спасибо! 

Получать рассылки dev.by про белорусское ИТ

Что-то пошло не так. Попробуйте позже