Amazon открыла датасет Dinner Party Corpus (DiPCo), который помогает решить проблему «эффекта вечеринки» — восприятия и распознавания речи сразу нескольких спикеров в шумном месте, пишет VentureBeat.
Датасет помогали создавать волонтёры, которые имитировали шумные вечеринки в лаборатории — они ели и общались на фоне музыки. На каждого были надеты наушники с микрофонами, который улавливал сигнал определённого человека. Ещё 5 устройств 7 микрофонами были расположены в самом помещении и собирали сигнал на ноутбук координатора.
DiPCo содержит необработанные аудиозаписи со всех этих микрофонов. Записи, собранные с носимых микрофонов, позволяют определить успешность распознавания того или иного спикера. Кроме того, датасет содержит подробную расшифровку реплик каждого волонтёра.
Разделение данных на сегменты с и без фоновой музыки позволит исследователям совмещать «чистые» и «шумные» обучающие данные любым необходимым способом, чтобы достичь оптимальной производительности систем машинного обучения, считают авторы датасета.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.