RUS  ENG
Полная версия
ЖУРНАЛЫ // Доклады Российской академии наук. Математика, информатика, процессы управления // Архив

Докл. РАН. Матем., информ., проц. упр., 2025, том 527, страницы 459–470 (Mi danma701)

СПЕЦИАЛЬНЫЙ ВЫПУСК: ТЕХНОЛОГИИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА И МАШИННОГО ОБУЧЕНИЯ

Бенчмарк на основе ISAACSIM для совместной оценки планирования задач и низкоуровневых стратегий в мобильной манипуляции

Н. Э. Качаевa, А. Н. Спиридоновa, А. С. Городецкийa, К. Ф. Муравьевbc, Н. С. Осколковc, А. Нарендраc, В. И. Шахуроad, Д. А. Макаровbc, А. И. Пановac, П. Д. Федотоваef, А. К. Ковалевac

a AIRI, Москва, Россия
b Федеральный исследовательский центр «Информатика и управление» Российской академии наук, г. Москва
c Московский физико-технический институт, Долгопрудный, Россия
d Московский государственный университет имени М. В. Ломоносова
e Центр робототехники Сбера, Москва, Россия
f Сколковский институт науки и технологий, Москва, Россия

Аннотация: Бенчмарки играют ключевую роль в оценке прогресса в робототехнике и системах воплощенного искусственного интеллекта (Embodied AI). Однако существует разрыв между бенчмарками, ориентированными на выполнение языковых инструкций высокого уровня, которые часто предполагают безошибочное выполнение низкоуровневых действий, и бенчмарками для низкоуровневого управления роботами, ограничивающимися простыми одношаговыми командами. Этот разрыв мешает всесторонней оценке интегрированных систем, где одинаково важны как планирование задач, так и физическое выполнение действий. Для решения этой проблемы мы предлагаем Kitchen-R – новый бенчмарк, объединяющий оценку планирования задач и низкоуровневого управления в симулированной кухонной среде. Kitchen-R реализован как цифровой двойник с использованием симулятора Isaac Sim и включает более 500 сложных языковых инструкций. Бенчмарк поддерживает работу мобильного манипуляционного робота. Мы предоставляем базовые методы, включая стратегию планирования задач на основе большой визуально-языковой модели (VLM) и низкоуровневую стратегию управления, основанную на diffusion policy. Кроме того, бенчмарк включает систему сбора траекторий. Kitchen-R представляет собой гибкий фреймворк, поддерживающий три режима оценки – независимую оценку модуля планирования, независимую оценку стратегии управления и, что особенно важно, интегрированную оценку всей системы. Таким образом, Kitchen-R устраняет ключевой пробел в исследованиях Embodied AI, обеспечивая более комплексную и реалистичную оценку роботизированных агентов, управляемых языковыми инструкциями.

Ключевые слова: бенчмарк, робототехника, воплощенный ИИ, планирование задач, мобильная манипуляция, симуляция.

УДК: 004.9

Поступило: 21.08.2025
Принято к публикации: 28.09.2025

DOI: 10.7868/S2686954325070392



Реферативные базы данных:


© МИАН, 2025