Maxim Sidorov, Alexander Schmitt, Eugene S. Semenkin, “Automated recognition of paralinguistic signals in spoken dialogue systems: ways of improvement”, Журн. СФУ. Сер. Матем. и физ., 2015, том 8, выпуск 2,страницы 208

Automated recognition of paralinguistic signals in spoken dialogue systems: ways of improvement

[Автоматическое распознавание паралингвистических характеристик говорящего: способы улучшения качества классификации]

Maxim Sidorov^a, Alexander Schmitt^a, Eugene S. Semenkin^b

^a Institute of Communications Engineering, Ulm University, Albert Einstein-Allee, 43, Ulm, 89081, Germany
^b Institute of Computer Science and Telecommunications, Siberian State Aerospace University, Krasnoyarskiy Rabochiy, 31, Krasnoyarsk, 660014, Russia

Аннотация: Способность искусственных систем распознавать паралингвистические характеристики говорящего, такие как эмоциональное состояние, наличие и степень депрессии, открытость человека, является полезной для широкого круга приложений. Однако производительность таких систем далека от идеальных значений. В этой статье мы предлагаем подходы, применение которых позволяет существенно улучшить производительность систем распознавания. В работе описывается метод построения адаптивных эмоциональных моделей, позволяющих использовать характеристики конкретного человека для построения точных моделей. В статье представлены алгоритмы выявления наиболее значимых характеристик речевых сигналов, позволяющие одновременно максимизировать точность решения поставленной задачи и минимизировать количество используемых характеристик сигнала. Наконец, предлагается использовать комбинированные аудио визуальные сигналы в качестве входов для алгоритма машинного обучения. Указанные подходы были реализованы и проверены на 9 эмоциональных речевых корпусах. Результаты проведенных экспериментов позволяют утверждать, что предложенные в статье подходы улучшают качество решения поставленных задач с точки зрения выбранных критериев.

Ключевые слова: распознавание паралингвистических характеристик, алгоритмы машинного обучения, адаптивная процедура распознавания эмоций, мультимодальность.

УДК: 519.87

Получена: 19.01.2015
Исправленный вариант: 25.02.2015
Принята: 20.03.2015

Язык публикации: английский