HDMI(HumanoiD iMitation for Interaction)是一個框架,使類人機器人能夠從單目RGB人類視頻中學習全身物體交互技能。 它使用GVHMR和LocoMujoco提取和重新定向人類姿勢和物體軌跡,構建帶有接觸註釋的參考數據集。這些數據用於通過機器人-物體共同跟蹤訓練RL策略。 HDMI實現了67次連續的門穿越。