RUS  ENG
Полная версия
ЖУРНАЛЫ // Журнал Сибирского федерального университета. Серия «Математика и физика» // Архив

Журн. СФУ. Сер. Матем. и физ., 2015, том 8, выпуск 2, страницы 208–216 (Mi jsfu423)

Automated recognition of paralinguistic signals in spoken dialogue systems: ways of improvement

[Автоматическое распознавание паралингвистических характеристик говорящего: способы улучшения качества классификации]

Maxim Sidorova, Alexander Schmitta, Eugene S. Semenkinb

a Institute of Communications Engineering, Ulm University, Albert Einstein-Allee, 43, Ulm, 89081, Germany
b Institute of Computer Science and Telecommunications, Siberian State Aerospace University, Krasnoyarskiy Rabochiy, 31, Krasnoyarsk, 660014, Russia

Аннотация: Способность искусственных систем распознавать паралингвистические характеристики говорящего, такие как эмоциональное состояние, наличие и степень депрессии, открытость человека, является полезной для широкого круга приложений. Однако производительность таких систем далека от идеальных значений. В этой статье мы предлагаем подходы, применение которых позволяет существенно улучшить производительность систем распознавания. В работе описывается метод построения адаптивных эмоциональных моделей, позволяющих использовать характеристики конкретного человека для построения точных моделей. В статье представлены алгоритмы выявления наиболее значимых характеристик речевых сигналов, позволяющие одновременно максимизировать точность решения поставленной задачи и минимизировать количество используемых характеристик сигнала. Наконец, предлагается использовать комбинированные аудио визуальные сигналы в качестве входов для алгоритма машинного обучения. Указанные подходы были реализованы и проверены на 9 эмоциональных речевых корпусах. Результаты проведенных экспериментов позволяют утверждать, что предложенные в статье подходы улучшают качество решения поставленных задач с точки зрения выбранных критериев.

Ключевые слова: распознавание паралингвистических характеристик, алгоритмы машинного обучения, адаптивная процедура распознавания эмоций, мультимодальность.

УДК: 519.87

Получена: 19.01.2015
Исправленный вариант: 25.02.2015
Принята: 20.03.2015

Язык публикации: английский



© МИАН, 2024