Amazon опубликовала датасет для распознавания речи на фоне шума

4 октября 2019, 10:25

Amazon открыла датасет Dinner Party Corpus (DiPCo), который помогает решить проблему «эффекта вечеринки» — восприятия и распознавания речи сразу нескольких спикеров в шумном месте, пишет VentureBeat.

Датасет помогали создавать волонтёры, которые имитировали шумные вечеринки в лаборатории — они ели и общались на фоне музыки. На каждого были надеты наушники с микрофонами, который улавливал сигнал определённого человека. Ещё 5 устройств 7 микрофонами были расположены в самом помещении и собирали сигнал на ноутбук координатора.

DiPCo содержит необработанные аудиозаписи со всех этих микрофонов. Записи, собранные с носимых микрофонов, позволяют определить успешность распознавания того или иного спикера. Кроме того, датасет содержит подробную расшифровку реплик каждого волонтёра.

Разделение данных на сегменты с и без фоновой музыки позволит исследователям совмещать «чистые» и «шумные» обучающие данные любым необходимым способом, чтобы достичь оптимальной производительности систем машинного обучения, считают авторы датасета.

По теме
Все материалы по теме
подписка на главные новости 
недели != спам
# ит-новости
# анонсы событий
# вакансии
Обсуждение