Аннотация:
В эпоху стремительной цифровой трансформации и растущего распространения искусственного интеллекта обеспечение естественного, непрерывного и бесконтактного человеко-компьютерного взаимодействия приобретает первостепенное значение для различных областей. Данная работа представляет новую модель на базе глубокого обучения для управления виртуальной мышью посредством жестов, получившая название CLVM (CNN-LSTM Virtual Mouse). Разработанная система основывается на гибридной архитектуре, интегрирующей три мощных компонента: (1) MediaPipe – для высокоэффективной детекции ключевых ориентиров кисти в режиме реального времени; (2) сверточную нейронную сеть (CNN) – для извлечения пространственных признаков; (3) сеть долгой краткосрочной памяти (LSTM) – для моделирования временной динамики, что существенно повышает точность и непрерывность распознавания жестов во временной последовательности. В отличие от традиционных подходов, модель CLVM разработана для сохранения высокой производительности в условиях реальной среды, особенно при неравномерном освещении и наличии загроможденного фона. Система характеризуется низкой задержкой и высокой скоростью отклика, а также возможностью эффективного функционирования на устройствах с ограниченными ресурсами, что обуславливает ее пригодность для широкого практического применения. Результаты экспериментов демонстрируют, что CLVM достигает высокой точности (99,88%) при снижении потерь до 0,38, значительно превосходя по эффективности традиционные методы распознавания жестов. Полученные данные подчеркивают потенциал CLVM как надежного, масштабируемого и эффективного решения для организации естественного взаимодействия на основе жестов, представляя собой важный шаг вперед в разработке интеллектуальных, удобных для пользователя интерфейсов для бесконтактного управления.