И. А. Рахманенко, А. А. Шелупанов, Е. Ю. Костюченко, “Автоматическая верификация диктора по произвольной фразе с применением свёрточных глубоких сетей доверия”, Компьютерная оптика, 2020, том 44, выпуск 4,страницы 596

Эта публикация цитируется в 11 статьях

ОБРАБОТКА ИЗОБРАЖЕНИЙ, РАСПОЗНАВАНИЕ ОБРАЗОВ

Автоматическая верификация диктора по произвольной фразе с применением свёрточных глубоких сетей доверия

И. А. Рахманенко, А. А. Шелупанов, Е. Ю. Костюченко

Томский государственный университет систем управления и радиоэлектроники, 634050, Россия, Томская область, г. Томск, пр. Ленина, д. 40

Аннотация: Данная статья посвящена применению свёрточных глубоких сетей доверия в качестве средства извлечения речевых признаков из аудиозаписей для решения задачи автоматической, текстонезависимой верификации диктора. В работе описаны область применения и проблемы систем автоматической верификации диктора. Рассмотрены типы современных систем верификации диктора, основные типы речевых признаков, используемых в системах верификации диктора. Описана структура свёрточных глубоких сетей доверия, алгоритм обучения данной сети. Предложено применение речевых признаков, извлекаемых из трёх слоёв обученной свёрточной глубокой сети доверия. Данный подход основан на применении методов анализа изображений как к уже выделенным признакам речевого сигнала, так и для их выделения из слоёв нейронной сети. Произведены экспериментальные исследования предложенных признаков на двух речевых корпусах: собственном речевом корпусе, включающем аудиозаписи 50 дикторов, и речевом корпусе TIMIT, включающем аудиозаписи 630 дикторов. Была произведена оценка точности предложенных признаков с применением классификаторов различного типа. Непосредственное применение данных признаков не дало увеличения точности по сравнению с использованием традиционных речевых признаков, таких как мел-кепстральные коэффициенты. Однако применение данных признаков в составе ансамбля классификаторов позволило достичь уменьшения равной ошибки 1-го и 2-го рода до 0,21% на собственном речевом корпусе и до 0,23% на речевом корпусе TIMIT.

Ключевые слова: распознавание диктора, верификация диктора, Гауссовы смеси, GMM-UBM-система, речевые признаки, обработка речи, глубокое обучение, нейронные сети, распознавание образов.

Поступила в редакцию: 20.08.2019
Принята в печать: 13.10.2019

DOI: 10.18287/2412-6179-CO-621