HDMI (HumanoiD iMitation for Interaction) je rámec umožňující humanoidním robotům naučit se dovednosti interakce s objekty celého těla z monokulárních RGB lidských videí. Extrahuje a přecílí lidské pózy a trajektorie objektů pomocí GVHMR a LocoMujoco a vytvoří referenční datové sady s anotacemi kontaktů. Data se používají k trénování RL politiky prostřednictvím společného sledování robot-objekt. HDMI dosáhlo 67 po sobě jdoucích průchodů dveřmi.