И. С. Кипяткова, И. А. Кагиров, М. Д. Долгушин, “Применение предварительно обученных многоязычных моделей для распознавания карельской речи”, Информатика и автоматизация, 2025, выпуск 24, том 2,страницы 604

Искусственный интеллект, инженерия данных и знаний

Применение предварительно обученных многоязычных моделей для распознавания карельской речи

И. С. Кипяткова, И. А. Кагиров, М. Д. Долгушин

Федеральное государственное бюджетное учреждение науки «Санкт-Петербургский Федеральный исследовательский центр Российской академии наук» (СПб ФИЦ РАН)

Аннотация: В настоящей статье описывается экспериментальное исследование, направленное на решение проблемы обучения моделей для распознавания речи в условиях малого объема обучающих речевых и текстовых данных. Подробно рассматриваются существующие подходы к решению данной проблемы, в частности, использование преодобученных многоязычных моделей и аугментация данных. В работе проведена адаптация многоязычных моделей на базе Wav2Vec и Whisper к ливвиковскому наречию карельского языка и проведено исследование применения внешней языковой модели для повышения точности распознавания интегральной системы. Кроме того, в статье описаны специально собранная и подготовленная речевая база данных и базовая система распознавания, созданная на основе тулкита Kaldi. Приведены количественные результаты тестирования, которые подтверждают эффективность выбранных методов: так, использование моделей на архитектуре Трансформер, в частности, Wav2Vec, позволило достичь более высоких показателей, чем у базовых моделей, обученных с помощью программных средств Kaldi. Дообучение моделей Wav2Vec снизило количество неправильно распознанных слов до 24,73% на валидационной и до 25,25% на тестовой выборках, а использование модели Wav2Vec-BERT 2.0 с внешней языковой моделью дополнительно уменьшило количество неправильно распознанных слов до 17,12% и 17,72% соответственно. Статья адресована, в первую очередь, специалистам, занимающимся разработкой систем автоматического распознавания речи для малоресурсных языков и распознаванием речи на прибалтийско-финских языках, в частности, результаты этой работы могут найти практическое применение в полевых исследованиях, при записи текстов на карельском.

Ключевые слова: малоресурсные языки, карельский язык, переключение кодов, предобученные модели, машинное обучение, речевой корпус.

УДК: 004.934+81'322

Поступила в редакцию: 29.01.2025

DOI: 10.15622/ia.24.2.9