Аннотация:
Бенчмарки играют ключевую роль в оценке прогресса в робототехнике и системах воплощенного искусственного интеллекта (Embodied AI). Однако существует разрыв между бенчмарками, ориентированными на выполнение языковых инструкций высокого уровня, которые часто предполагают безошибочное выполнение низкоуровневых действий, и бенчмарками для низкоуровневого управления роботами, ограничивающимися простыми одношаговыми командами. Этот разрыв мешает всесторонней оценке интегрированных систем, где одинаково важны как планирование задач, так и физическое выполнение действий. Для решения этой проблемы мы предлагаем Kitchen-R – новый бенчмарк, объединяющий оценку планирования задач и низкоуровневого управления в симулированной кухонной среде. Kitchen-R реализован как цифровой двойник с использованием симулятора Isaac Sim и включает более 500 сложных языковых инструкций. Бенчмарк поддерживает работу мобильного манипуляционного робота. Мы предоставляем базовые методы, включая стратегию планирования задач на основе большой визуально-языковой модели (VLM) и низкоуровневую стратегию управления, основанную на diffusion policy. Кроме того, бенчмарк включает систему сбора траекторий. Kitchen-R представляет собой гибкий фреймворк, поддерживающий три режима оценки – независимую оценку модуля планирования, независимую оценку стратегии управления и, что особенно важно, интегрированную оценку всей системы. Таким образом, Kitchen-R устраняет ключевой пробел в исследованиях Embodied AI, обеспечивая более комплексную и реалистичную оценку роботизированных агентов, управляемых языковыми инструкциями.