А. А. Лепендин, Р. С. Насретдинов, И. Д. Ильяшенко, “Метод улучшения качества речи с использованием модифицированного кодирующего-декодирующего пирамидального трансформера”, Труды ИСП РАН, 2022, том 34, выпуск 4,страницы 135

Эта публикация цитируется в 1 статье

Метод улучшения качества речи с использованием модифицированного кодирующего-декодирующего пирамидального трансформера

А. А. Лепендин, Р. С. Насретдинов, И. Д. Ильяшенко

Алтайский государственный университет

Аннотация: Развитие новых технологий голосового общения привело к необходимости совершенствования методов улучшения качества речи. Современные пользователи информационных систем предъявляют высокие требования как к разборчивости голосового сигнала, так и к его субъективно воспринимаемому качеству. Данная работа посвящена развитию нового подхода к решению актуальной задачи улучшения качества речи. Для этого было предложено использовать модифицированную нейронную сеть пирамидального трансформера, использующую двухкомпонентную структуру «кодер-декодер». Кодирующая компонента сети осуществляла сжатие спектра голосового сигнала в пирамидальную серию внутренних представлений. Декодирующая компонента, используя преобразования самовнимания, восстанавливала маску комплексного отношения очищенного и искаженного сигналов на основе вычисленных кодером внутренних представлений. Были рассмотрены две возможные функции потерь для обучения предложенной нейросетевой модели. Показано, что использование частотного кодирования, подмешиваемого к входным данным, позволило улучшить качество работы предложенного подхода. Реализованная на языке Python и библиотеке глубокого обучения PyTorch нейронная сеть обучалась и тестировалась на наборе данных DNS Challenge 2021. Она продемонстрировала высокое качество работы по сравнению с другими современными методами улучшения качества речи. В работе был проведен качественный анализ процесса обучения реализованной нейронной сети, который показал, что предлагаемая нейросетевая модель постепенно переходила от простого маскирования шума на ранних эпохах обучения к восстановлению пропущенных формантных компонент голоса говорящего на более поздних эпохах. Это приводило к высоким значениям численных метрик качества работы предложенного подхода и высокому субъективному качеству речи.

Ключевые слова: улучшение качества речи, очистка от шума, маскирование шума, глубокая нейронная сеть, глубокое обучение, архитектура кодер-декодер, пирамидальный трансформер, самовнимание

DOI: 10.15514/ISPRAS-2022-34(4)-10