A. Iudin, M. Skripkin, O. Y. Rogov, D. Korzh, “Clarispeech: LLM-enhanced speech recognition post-correction”, Зап. научн. сем. ПОМИ, 2025, том 546,страницы 223

Clarispeech: LLM-enhanced speech recognition post-correction

[Clarispeech: распознавание речи с помощью LLM-технологии пост-коррекции]

A. Iudin^ab, M. Skripkin^bc, O. Y. Rogov^bc, D. Korzh^bc

^a Moscow Technical University of Communications and Informatics
^b AIRI
^c Skoltech

Аннотация: Последние достижения в области автоматического распознавания речи (ASR) сделали эти системы широко применимыми, в том числе в виртуальных помощниках и веб-интерфейсах. Однако даже самые современные модели ASR часто дают ошибки, особенно при адаптации к новым речевым доменам. Традиционные решения включают в себя тонкую настройку ASR-моделей на данных целевой области или интеграцию языковых моделей (LM) для повторной оценки прогнозов. Однако совместная тонкая настройка моделей ASR и LM может быть нестабильной, требовать большого количества обучающих данных и страдать от проблем с согласованием. Использование более сложных языковых моделей для неглубокого слияния, особенно больших языковых моделей (LLM), нецелесообразно, что приводит к значительным вычислительным затратам. В данной работе мы решаем эти проблемы, сосредоточившись на коррекции после транскрипции, используя эффективную по параметрам тонкую настройку внешних языковых моделей, оставляя при этом систему ASR <замороженной>. Наши эксперименты показывают, что этот подход значительно повышает точность и вычислительную эффективность. По сравнению с базовой ASR-системой использование конфигурации ASR+LLM снижает количество ошибок в словах с 12% до 10%, при этом вычислительные затраты увеличиваются менее чем на 50%, несмотря на восьмикратное увеличение количества параметров. Библ. – 63 назв.

Ключевые слова: глубокое обучение, автоматическое распознавание речи, большие языковые модели, обработка естественного языка, искусственный интеллект, распознавание речи.

УДК: 004.89

Поступило: 28.02.2025

Язык публикации: английский