HDMI (HumanoiD iMitation for Interaction) is een framework dat humanoïde robots in staat stelt om vaardigheden voor interactie met objecten met het hele lichaam te leren uit monoculaire RGB-video's van mensen. Het extraheert en herdoelt menselijke houdingen en objecttrajecten met behulp van GVHMR en LocoMujoco, en bouwt referentiedatasets met contactannotaties. De gegevens worden gebruikt om een RL-beleid te trainen via robot-object co-tracking. HDMI heeft 67 opeenvolgende deurdoorsteken bereikt.