Отдел новостей 4 октября 2019, 10:25

Amazon опубликовала датасет для распознавания речи на фоне шума

Amazon открыла датасет Dinner Party Corpus (DiPCo), который помогает решить проблему «эффекта вечеринки» — восприятия и распознавания речи сразу нескольких спикеров в шумном месте, пишет VentureBeat.

Датасет помогали создавать волонтёры, которые имитировали шумные вечеринки в лаборатории — они ели и общались на фоне музыки. На каждого были надеты наушники с микрофонами, который улавливал сигнал определённого человека. Ещё 5 устройств 7 микрофонами были расположены в самом помещении и собирали сигнал на ноутбук координатора.

DiPCo содержит необработанные аудиозаписи со всех этих микрофонов. Записи, собранные с носимых микрофонов, позволяют определить успешность распознавания того или иного спикера. Кроме того, датасет содержит подробную расшифровку реплик каждого волонтёра.

Разделение данных на сегменты с и без фоновой музыки позволит исследователям совмещать «чистые» и «шумные» обучающие данные любым необходимым способом, чтобы достичь оптимальной производительности систем машинного обучения, считают авторы датасета.

По теме