HDMI (Humanoid iMitation for Interaction) — это фреймворк, позволяющий гуманоидным роботам обучаться навыкам взаимодействия с объектами всего тела на основе монохромных RGB-видео с участием человека. Он извлекает и перенаправляет позы человека и траектории объектов, используя GVHMR и LocoMujoco, создавая эталонные наборы данных с аннотациями контактов. Данные используются для обучения политики RL через совместное отслеживание робота и объекта. HDMI достиг 67 последовательных проходов через двери.