E. S. Fadeeva, V. A. Ershov, “Multi-channel transformer: a transformer-based model for multi-speaker speech recognition”, Информатика, телекоммуникации и управление, 2022, том 15, выпуск 4,страницы 73

Multi-channel transformer: a transformer-based model for multi-speaker speech recognition

[Многоканальный трансформер: модель для распознавания многоголосной речи, основанная на архитектуре трансформер]

E. S. Fadeeva, V. A. Ershov

Company "Yandex"

Аннотация: Многие современные подходы для решения задачи распознавания многоголосной речи либо не предназначены для работы с пересекающейся речью, либо требуют много времени для запуска, что может быть критичным, например, в случае распознавания речи в реальном времени. В статье предложена трансформерная end-to-end модель для распознавания многоголосной речи с возможными пересечениями. Предложенная архитектура является обобщением архитектуры из стандартного подхода к распознаванию речи. Такая модель позволяет достичь результатов, сопоставимых по качеству с современными решениями, но требует меньше запусков модели для получения текстового распознавания многоголосной речи, что ускоряет время работы такой системы. Описана процедура генерации синтетических данных для обучения модели. Эта процедура позволяет компенсировать отсутствие реальных данных для обучения модели для распознавания многоголосной речи путем создания потока данных из первоначального набора.

Ключевые слова: speech recognition, multi-speaker speech recognition, diarization, speech separation, voice technologies.

УДК: 004.8

Поступила в редакцию: 29.11.2022

Язык публикации: английский

DOI: 10.18721/JCSTCS.15406