RUS  ENG
Полная версия
ЖУРНАЛЫ // Компьютерная оптика // Архив

Компьютерная оптика, 2023, том 47, выпуск 2, страницы 287–305 (Mi co1128)

Эта публикация цитируется в 1 статье

ОБРАБОТКА ИЗОБРАЖЕНИЙ, РАСПОЗНАВАНИЕ ОБРАЗОВ

Современные технологии автоматического распознавания средств общения на основе визуальных данных

В. О. Ячнаяab, В. Р. Луцивa, Р. О. Малашинab

a Санкт-Петербургский государственный университет аэрокосмического приборостроения
b Институт физиологии им. И. П. Павлова РАН

Аннотация: Общение представляет собой широкий спектр различных действий, связанных с приёмом и передачей информации. Процесс общения складывается из вербальных, паравербальных и невербальных компонентов, содержащих информационную часть передаваемого сообщения и его эмоциональную окраску соответственно. Комплексный анализ всех компонентов общения позволяет оценить не только содержательную составляющую, но и ситуативный контекст сказанного, а также выявлять дополнительные факторы, относящиеся к психическому и соматическому состоянию говорящего. Существует несколько методов передачи вербального сообщения, среди которых устная и жестовая речь. Речевые и околоречевые компоненты общения могут содержаться в различных каналах данных, таких как аудио- или видеоканалы. В данном обзоре рассматриваются системы анализа видеоданных ввиду того, что аудиоканал не способен передать ряд околоречевых компонентов общения, вносящих в передаваемое сообщение дополнительную информацию. Проводится анализ существующих баз данных статических и динамических образов и систем, разрабатываемых для распознавания вербальной составляющей в устной и жестовой речи, а также систем, оценивающих паравербальные и невербальные компоненты общения. Обозначены сложности, с которыми сталкиваются разработчики подобных баз данных и систем. Также сформулированы перспективные направления разработок, связанные в том числе с комплексным анализом всех компонентов общения с целью наиболее полной оценки передаваемого сообщения.

Ключевые слова: распознавание речи, распознавание жестовых языков, аффективные вычисления, компьютерное зрение, нейронные сети

Поступила в редакцию: 27.04.2022
Принята в печать: 29.09.2022

DOI: 10.18287/2412-6179-CO-1154



© МИАН, 2025