Д. С. Обухов, “Разработка современной системы распознавания русскоязычной телефонной речи”, УБС, 2021, выпуск 89,страницы 106

Программы и системы моделирования объектов, средств и систем управления

Разработка современной системы распознавания русскоязычной телефонной речи

Д. С. Обухов

Новосибирский государственный технический университет

Аннотация: Описывается система, разработанная для распознавания русскоязычной речи. Мы фокусируемся на домене телефонных разговоров, когда на вход поступает одноканальный аудиосигнал с частотой дискретизации 8 кГц, полученный в условиях с повышенными шумами. Дополнительно для обучения используются данные из видео хостинга YouTube. Рассматривается ряд акустических моделей и техники построения фонемного словаря и языковой модели. Кроме того, приводятся результаты экспериментов по влиянию информации о спикере. Также показывается, что применение таких техник аугментации, как реверберация, изменение скорости и громкости сигнала, маскирование частотных и временных характеристик существенно повышают качество распознавания. На отложенном для тестирования наборе данных телефонии достигнута ошибка обучения на словах 24.21.

Ключевые слова: распознавание речи, русскоязычная речь, акустическая модель, языковая модель, аугментация звука, вектор характеристик спикера.

УДК: 004.934.1
ББК: 32.813

Поступила в редакцию: 9 мая 2020 г.
Опубликована: 31 января 2021 г.

DOI: 10.25728/ubs.2021.89.4