Аннотация:
Последние достижения в области автоматического распознавания речи (ASR) сделали эти системы широко применимыми, в том числе в виртуальных помощниках и веб-интерфейсах. Однако даже самые современные модели ASR часто дают ошибки, особенно при адаптации к новым речевым доменам. Традиционные решения включают в себя тонкую настройку ASR-моделей на данных целевой области или интеграцию языковых моделей (LM) для повторной оценки прогнозов. Однако совместная тонкая настройка моделей ASR и LM может быть нестабильной, требовать большого количества обучающих данных и страдать от проблем с согласованием. Использование более сложных языковых моделей для неглубокого слияния, особенно больших языковых моделей (LLM), нецелесообразно, что приводит к значительным вычислительным затратам. В данной работе мы решаем эти проблемы, сосредоточившись на коррекции после транскрипции, используя эффективную по параметрам тонкую настройку внешних языковых моделей, оставляя при этом систему ASR <замороженной>. Наши эксперименты показывают, что этот подход значительно повышает точность и вычислительную эффективность. По сравнению с базовой ASR-системой использование конфигурации ASR+LLM снижает количество ошибок в словах с 12% до 10%, при этом вычислительные затраты увеличиваются менее чем на 50%, несмотря на восьмикратное увеличение количества параметров. Библ. – 63 назв.
Ключевые слова:
глубокое обучение, автоматическое распознавание речи, большие языковые модели, обработка естественного языка, искусственный интеллект, распознавание речи.