Н. Э. Качаев, А. Н. Спиридонов, А. С. Городецкий, К. Ф. Муравьев, Н. С. Осколков, А. Нарендра, В. И. Шахуро, Д. А. Макаров, А. И. Панов, П. Д. Федотова, А. К. Ковалев, “Бенчмарк на основе ISAACSIM для совместной оценки планирования задач и низкоуровневых стратегий в мобильной манипуляции”, Докл. РАН. Матем., информ., проц. упр., 2025, том 527,страницы 459

СПЕЦИАЛЬНЫЙ ВЫПУСК: ТЕХНОЛОГИИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА И МАШИННОГО ОБУЧЕНИЯ

Бенчмарк на основе ISAACSIM для совместной оценки планирования задач и низкоуровневых стратегий в мобильной манипуляции

Н. Э. Качаев^a, А. Н. Спиридонов^a, А. С. Городецкий^a, К. Ф. Муравьев^bc, Н. С. Осколков^c, А. Нарендра^c, В. И. Шахуро^ad, Д. А. Макаров^bc, А. И. Панов^ac, П. Д. Федотова^ef, А. К. Ковалев^ac

^a AIRI, Москва, Россия
^b Федеральный исследовательский центр «Информатика и управление» Российской академии наук, г. Москва
^c Московский физико-технический институт, Долгопрудный, Россия
^d Московский государственный университет имени М. В. Ломоносова
^e Центр робототехники Сбера, Москва, Россия
^f Сколковский институт науки и технологий, Москва, Россия

Аннотация: Бенчмарки играют ключевую роль в оценке прогресса в робототехнике и системах воплощенного искусственного интеллекта (Embodied AI). Однако существует разрыв между бенчмарками, ориентированными на выполнение языковых инструкций высокого уровня, которые часто предполагают безошибочное выполнение низкоуровневых действий, и бенчмарками для низкоуровневого управления роботами, ограничивающимися простыми одношаговыми командами. Этот разрыв мешает всесторонней оценке интегрированных систем, где одинаково важны как планирование задач, так и физическое выполнение действий. Для решения этой проблемы мы предлагаем Kitchen-R – новый бенчмарк, объединяющий оценку планирования задач и низкоуровневого управления в симулированной кухонной среде. Kitchen-R реализован как цифровой двойник с использованием симулятора Isaac Sim и включает более 500 сложных языковых инструкций. Бенчмарк поддерживает работу мобильного манипуляционного робота. Мы предоставляем базовые методы, включая стратегию планирования задач на основе большой визуально-языковой модели (VLM) и низкоуровневую стратегию управления, основанную на diffusion policy. Кроме того, бенчмарк включает систему сбора траекторий. Kitchen-R представляет собой гибкий фреймворк, поддерживающий три режима оценки – независимую оценку модуля планирования, независимую оценку стратегии управления и, что особенно важно, интегрированную оценку всей системы. Таким образом, Kitchen-R устраняет ключевой пробел в исследованиях Embodied AI, обеспечивая более комплексную и реалистичную оценку роботизированных агентов, управляемых языковыми инструкциями.

Ключевые слова: бенчмарк, робототехника, воплощенный ИИ, планирование задач, мобильная манипуляция, симуляция.

УДК: 004.9

Поступило: 21.08.2025
Принято к публикации: 28.09.2025

DOI: 10.7868/S2686954325070392