RUS  ENG
Полная версия
ЖУРНАЛЫ // Журнал Сибирского федерального университета. Серия «Математика и физика» // Архив

Журн. СФУ. Сер. Матем. и физ., 2016, том 9, выпуск 4, страницы 518–523 (Mi jsfu514)

Эта публикация цитируется в 7 статьях

Speech-based emotion recognition and speaker identification: static vs. dynamic mode of speech representation

[Распознавание эмоций и идентификация спикера по речевым сигналам: сравнение статического и динамического подходов к представлению речевых сигналов]

Maxim Sidorova, Wolfgang Minkera, Eugene S. Semenkinb

a Institute of Communications Engineering, Ulm University, Albert-Einstein-Allee, 43, Ulm, 89081
b Informatics and Telecommunications Institute, Reshetnev Siberian State Aerospace University, Krasnoyarskiy Rabochiy, 31, Krasnoyarsk, 660037, Russia

Аннотация: В статье рассматривается применение различных алгоритмов машинного обучения для задач распознавания эмоций и идентификации говорящего на основе речевых сигналов. Мы исследуем статический и динамический режимы представления речевого сигнала. Для проведения численных экспериментов и апробации рассмотренных подходов мы использовали 7 баз данных на немецком, английском и японском языках. Более 45 алгоритмов машинного обучения были применены для решения указанных задач в двух режимах представления речевого сигнала. В статье представлены результаты численных исследований и проведен их анализ.

Ключевые слова: распознавание эмоций и идентификация говорящего по речевым сигналам, алгоритмы машинного обучения, адаптивная процедура распознавания эмоций по речевым сигналам.

УДК: 519.87

Получена: 28.12.2015
Исправленный вариант: 24.02.2016
Принята: 15.09.2016

Язык публикации: английский

DOI: 10.17516/1997-1397-2016-9-4-518-523



Реферативные базы данных:


© МИАН, 2024