Аннотация:
Описывается система, разработанная для распознавания русскоязычной речи. Мы фокусируемся на домене телефонных разговоров, когда на вход поступает одноканальный аудиосигнал с частотой дискретизации 8 кГц, полученный в условиях с повышенными шумами. Дополнительно для обучения используются данные из видео хостинга YouTube. Рассматривается ряд акустических моделей и техники построения фонемного словаря и языковой модели. Кроме того, приводятся результаты экспериментов по влиянию информации о спикере. Также показывается, что применение таких техник аугментации, как реверберация, изменение скорости и громкости сигнала, маскирование частотных и временных характеристик существенно повышают качество распознавания. На отложенном для тестирования наборе данных телефонии достигнута ошибка обучения на словах 24.21.