RUS  ENG
Полная версия
ЖУРНАЛЫ // Доклады Российской академии наук. Математика, информатика, процессы управления // Архив

Докл. РАН. Матем., информ., проц. упр., 2023, том 514, номер 2, страницы 364–374 (Mi danma480)

СПЕЦИАЛЬНЫЙ ВЫПУСК: ТЕХНОЛОГИИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА И МАШИННОГО ОБУЧЕНИЯ

Исследование нейросетевых алгоритмов прогнозирования движений человека на базе LSTM и трансформеров

С. В. Жиганов, Ю. С. Иванов, Д. М. Грабарь

Комсомольский-на-Амуре государственный университет, Комсомольск-на-Амуре, Россия

Аннотация: Решена задача прогнозирования положения человека на будущих кадрах видеопотока и проведены глубокие экспериментальные исследования по применению традиционных и SOTA блоков для данной задачи. Представлены оригинальная архитектура KeyFNet и ее модификации, основанная на трансформеных блоках, способная предсказать координаты в видеопотоке на 30, 60, 90 и 120 кадров вперед с высокой точностью. Новизна состоит в применении комбинированного алгоритма на основе нескольких блоков FNet с быстрым преобразованием Фурье в качестве механизма внимания, конкатенирующих координаты ключевых точек. Проведенные эксперименты на Human3.6M и на собственных реальных данных подтвердили эффективность предложенного подхода на базе блоков FNet, в сравнении с традиционным подходом, основанным на LSTM. Предлагаемый алгоритм соответствует по точности передовым моделям, но превосходит их по скорости и использует меньше ресурсов для вычисления и может быть применен в коллаборативных робототехнических решениях.

Ключевые слова: прогнозирование ключевых точек, трансформеры, коллаборативные робототехнические системы, глубокое обучение.

УДК: 004.93

Статья представлена к публикации: А. И. Аветисян
Поступило: 02.09.2023
После доработки: 15.09.2023
Принято к публикации: 24.10.2023

DOI: 10.31857/S2686954323601689


 Англоязычная версия: Doklady Mathematics, 2023, 108:suppl. 2, S484–S493

Реферативные базы данных:


© МИАН, 2024