O. V. Verkholyak, H. Kaya, A. A. Karpov, “Modeling short-term and long-term dependencies of the speech signal for paralinguistic emotion classification”, Тр. СПИИРАН, 2019, выпуск 18, том 1,страницы 30

Эта публикация цитируется в 16 статьях

Искусственный интеллект, инженерия данных и знаний

Modeling short-term and long-term dependencies of the speech signal for paralinguistic emotion classification

[Моделирование кратко- и долговременных зависимостей речевого сигнала для паралингвистической классификации эмоций]

O. V. Verkholyak^a, H. Kaya^b, A. A. Karpov^a

^a St. Petersburg Institute for Informatics and Automation of the Russian Academy of Sciences (SPIIRAS)
^b Namık Kemal University

Аннотация: Распознавание эмоций в речи стало одним из важных направлений в области аффективных вычислений. Это комплексная задача, трудности которой во многом определяются необходимостью выбора признаков и их оптимального представления. Оптимальное представление признаков должно отражать глобальные характеристики, а также локальную структуру сигнала, поскольку эмоции естественным образом длятся во времени. Подобное представление возможно моделировать с помощью рекуррентных нейронных сетей (РНС – RNN), которые активно используются для различных задач распознавания, предполагающих работу с последовательностями. Предлагается смешанный подход к представлению признаков, который объединяет традиционные статистические признаки с последовательностью значений, полученных на выходе РНС с длинной кратковременной памятью (ДКП – LSTM) и хорошо моделирующих временную структуру сигнала. Таким образом, удается получить одновременное представление как кратковременных, так и долгосрочных характеристик, позволяющих использовать преимущества обоих подходов к моделированию признаков речевого сигнала. Для экспериментальной проверки предложенного метода была произведена оценка его эффективности на трех различных базах данных эмоционально окрашенной речи, находящихся в свободном доступе: RUSLANA (русская речь), BUEMODB (турецкая речь) и EMODB (немецкая речь). В сравнении с традиционным подходом результаты наших экспериментов показывают абсолютный прирост в точности распознавания эмоций в 2.3% и 2.8% для двух из вышеупомянутых корпусов, в то время как для третьего корпуса предложенный метод не уступает базовой системе. Следовательно, данный подход можно признать эффективным для моделирования эмоциональной окраски речевых высказываний при условии достаточного количества обучающих данных.

Ключевые слова: распознавание эмоций в речи, компьютерная паралингвистика, аффективные вычисления, представление признаков, моделирование контекста, искусственные нейронные сети, длинная кратковременная память.

УДК: 004.89

Поступила в редакцию: 24.08.2018

Язык публикации: английский

DOI: 10.15622/sp.18.1.30-56