N. V. Hung, P. D. Huynh, M. V. Tung, N. V. Vu, N. P. Dat, “CLVM: a hybrid deep learning framework for contactless virtual mouse control”, Информатика и автоматизация, 2026, выпуск 25, том 2,страницы 378

Искусственный интеллект, инженерия данных и знаний

CLVM: a hybrid deep learning framework for contactless virtual mouse control

[CLVM: гибридная модель глубокого обучения для бесконтактного управления виртуальной мышью]

N. V. Hung, P. D. Huynh, M. V. Tung, N. V. Vu, N. P. Dat

East Asia University of Technology

Аннотация: В эпоху стремительной цифровой трансформации и растущего распространения искусственного интеллекта обеспечение естественного, непрерывного и бесконтактного человеко-компьютерного взаимодействия приобретает первостепенное значение для различных областей. Данная работа представляет новую модель на базе глубокого обучения для управления виртуальной мышью посредством жестов, получившая название CLVM (CNN-LSTM Virtual Mouse). Разработанная система основывается на гибридной архитектуре, интегрирующей три мощных компонента: (1) MediaPipe – для высокоэффективной детекции ключевых ориентиров кисти в режиме реального времени; (2) сверточную нейронную сеть (CNN) – для извлечения пространственных признаков; (3) сеть долгой краткосрочной памяти (LSTM) – для моделирования временной динамики, что существенно повышает точность и непрерывность распознавания жестов во временной последовательности. В отличие от традиционных подходов, модель CLVM разработана для сохранения высокой производительности в условиях реальной среды, особенно при неравномерном освещении и наличии загроможденного фона. Система характеризуется низкой задержкой и высокой скоростью отклика, а также возможностью эффективного функционирования на устройствах с ограниченными ресурсами, что обуславливает ее пригодность для широкого практического применения. Результаты экспериментов демонстрируют, что CLVM достигает высокой точности (99,88%) при снижении потерь до 0,38, значительно превосходя по эффективности традиционные методы распознавания жестов. Полученные данные подчеркивают потенциал CLVM как надежного, масштабируемого и эффективного решения для организации естественного взаимодействия на основе жестов, представляя собой важный шаг вперед в разработке интеллектуальных, удобных для пользователя интерфейсов для бесконтактного управления.

Ключевые слова: компьютерное зрение, бесконтактный интерфейс, ориентиры кисти, машинное обучение, MediaPipe, виртуальная мышь.

УДК: 006.72

Поступила в редакцию: 25.07.2025

Язык публикации: английский

DOI: 10.15622/ia.25.2.5