И. А. Рахманенко, Р. В. Мещеряков, “Анализ идентификационных признаков в речевых данных с помощью GMM-UBM системы верификации диктора”, Тр. СПИИРАН, 52 (2017), 32

Эта публикация цитируется в 8 статьях

Теоретическая и прикладная математика

Анализ идентификационных признаков в речевых данных с помощью GMM-UBM системы верификации диктора

И. А. Рахманенко, Р. В. Мещеряков

Томский государственный университет систем управления и радиоэлектроники (ТУСУР)

Аннотация: Данная статья посвящена отбору и оценке речевых признаков, используемых в задаче автоматической текстонезависимой верификации диктора. Для решения поставленной задачи была использована система верификации диктора, основанная на модели Гауссовых смесей и универсальной фоновой модели (GMM-UBM система).
Рассмотрены область применения и проблемы современных систем автоматической идентификации диктора. Произведен обзор современных методов идентификации диктора, основных речевых признаков, используемых при решении задачи идентификации диктора, а также рассмотрен процесс извлечения признаков, использованных далее. К рассмотренным признакам относятся мел-кепстральные коэффициенты (MFCC), пары линейного спектра (LSP), кепстральные коэффициенты перцептивного линейного предсказания (PLP), кратковременная энергия, формантные частоты, частота основного тона, вероятность вокализации (voicing probability), частота пересечения нуля (ZCR), джиттер и шиммер.
Произведена экспериментальная оценка GMM-UBM системы с применением различных наборов речевых признаков на речевом корпусе, включающем в себя записи 50 дикторов. Признаки отобраны с помощью генетического алгоритма и алгоритма жадного добавления-удаления.
Используя 256-компонентные Гауссовы смеси и полученный вектор из 28 признаков, была получена равная ошибка 1-го и 2-го рода (EER), составляющая 0,579 %. По сравнению со стандартным вектором, состоящим из 14 мел-кепстральных коэффициентов, ошибка EER была уменьшена на 42,1 %.

Ключевые слова: распознавание диктора; верификация диктора; Гауссовы смеси; GMM-UBM система; мел-кепстральные коэффициенты; речевые признаки; отбор признаков; обработка речи; генетический алгоритм, жадный алгоритм.

УДК: 004.934.8'1

DOI: 10.15622/sp.52.2