А. А. Аксёнов, Д. А. Рюмин, А. М. Кашевник, Д. В. Иванько, А. А. Карпов, “Метод визуального анализа лица водителя для автоматического чтения речи по губам при управлении транспортным средством”, Компьютерная оптика, 2022, том 46, выпуск 6,страницы 955

ОБРАБОТКА ИЗОБРАЖЕНИЙ, РАСПОЗНАВАНИЕ ОБРАЗОВ

Метод визуального анализа лица водителя для автоматического чтения речи по губам при управлении транспортным средством

А. А. Аксёнов, Д. А. Рюмин, А. М. Кашевник, Д. В. Иванько, А. А. Карпов

Федеральное государственное бюджетное учреждение науки «Санкт-Петербургский Федеральный исследовательский центр Российской академии наук»

Аннотация: В работе предложен метод визуального анализа и чтения речи по губам водителя при управлении транспортным средством. Автоматическое распознавание речи в акустически неблагоприятных динамических условиях является одной из актуальных задач искусственного интеллекта. Проблема эффективного автоматического чтения по губам во время дорожного движения на данный момент не решена из-за наличия различного рода помех (частые повороты головы, вибрация, динамическое освещение и т.п.). Кроме того, проблема усложняется отсутствием представительных баз данных визуальной речи. Для поиска и из-влечения области интереса используется программная библиотека MediaPipe Face Mesh. Для анализа визуальной речи разработана интегральная нейросетевая архитектура (End-to-End). Визуальные признаки извлекаются из отдельного изображения с помощью свёрточной нейронной сети в связке с полносвязным слоем. Извлеченные нейросетевые признаки изображений являются входными данными для нейросети с длинной кратковременной памятью. В связи с небольшим объемом обучающих данных было предложено применять метод переноса обучения. Результаты по анализу и распознаванию визуальной речи водителя в процессе управления автомобилем представляют большие возможности для решения актуальной задачи автоматического чтения по губам. Экспериментальные исследования выполнены на собственном аудиовизуальном корпусе русской речи RUSAVIC, собранном в реальных условиях дорожного движения. Максимальная точность визуального распознавания 62 голосовых управляющих команд водителей составила 64,09%. Полученные результаты могут быть использованы в системах аудиовизуального распознавания речи, применяемых в акустически сложной обстановке дорожного движения (высокая скорость движения, открытые окна или люк в автомобиле, одновременное проигрывание музыки, слабая шумоизоляция и т.п.)

Ключевые слова: транспортное средство, водитель, визуальное распознавание речи, автоматическое чтение по губам, машинное обучение, End-to-End, CNN, LSTM

Поступила в редакцию: 25.12.2021
Принята в печать: 30.04.2022

DOI: 10.18287/2412-6179-CO-1092