HDMI (Humanoid Imitation for Interaction) ist ein Framework, das humanoiden Robotern ermöglicht, Fähigkeiten zur Interaktion mit Objekten im gesamten Körper aus monokularen RGB-Videos von Menschen zu erlernen. Es extrahiert und retargetiert menschliche Posen und Objekttrajektorien mithilfe von GVHMR und LocoMujoco und erstellt Referenzdatensätze mit Kontaktannotationen. Die Daten werden verwendet, um eine RL-Politik über das Co-Tracking von Robotern und Objekten zu trainieren. HDMI erreichte 67 aufeinanderfolgende Türdurchquerungen.