Аннотация:
Представлены метод и архитектура разработанной нейроннной сети, позволяющие определять в режиме реального времени при ограниченных вычислительных ресурсах эмоциональное состояние человека по видеопоследовательности в которой присутствует как речевой сигнал, относящийся к источнику для которого нужно определить состояние, так и его лицо. Визуальная информация показана с помощью 16 последовательных кадров размером 96 $\times$ 96 пикселей, а аудиоинформация – с помощью 140 характерных признаков для последовательности из 37 окон. На основе экспериментальных исследований разработана архитектура нейросетевой модели с использованием сверхточных и рекуррентных нейронных сетей. Использование аудиоинформации совместно с визуальной информацией позволяет увеличить точность распознавания на 12%.