HDMI(HumanoiD iMitation for Interaction)是一个框架,使类人机器人能够从单目RGB人类视频中学习全身物体交互技能。 它使用GVHMR和LocoMujoco提取和重新定向人类姿势和物体轨迹,构建带有接触注释的参考数据集。这些数据用于通过机器人-物体共同跟踪训练RL策略。 HDMI实现了67次连续的门穿越。