RUS  ENG
Полная версия
ЖУРНАЛЫ // Труды института системного программирования РАН // Архив

Труды ИСП РАН, 2025, том 37, выпуск 1, страницы 145–158 (Mi tisp957)

Глубокое обучение в задаче разработки системы автоматической транскрипции

О. В. Гончароваabc

a ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ "ПЯТИГОРСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ"
b Российский университет дружбы народов имени Патриса Лумумбы, г. Москва
c Институт системного программирования им. В.П. Иванникова РАН

Аннотация: В статье представлена архитектура глубокой нейронной сети для автоматического распознавания фонем в речевом сигнале. Предложенная модель использует комбинацию сверточных и рекуррентных слоев, а также механизм внимания, обогащенный референсными значениями формант гласных фонем. Это позволяет эффективно извлекать локальные и глобальные акустические признаки, необходимые для точного распознавания последовательностей фонем. Особое внимание уделяется проблеме несбалансированности частоты фонем в обучающем наборе данных и способам ее преодоления, таким как аугментация данных и применение взвешенной функции потерь. Представленные результаты демонстрируют работоспособность предложенного подхода, однако указывают на необходимость дальнейшего совершенствования модели для достижения более высоких показателей точности и полноты в задаче распознавания речи.

Ключевые слова: Автоматическое распознавание речи, фонетическая транскрипция, глубокие нейронные сети, форманты

DOI: 10.15514/ISPRAS-2025-37(1)-9



© МИАН, 2025