HDMI (HumanoiD iMitation for Interaction) adalah kerangka kerja yang memungkinkan robot humanoid mempelajari keterampilan interaksi objek seluruh tubuh dari video manusia RGB monokular. Ini mengekstrak dan menargetkan ulang pose manusia dan lintasan objek menggunakan GVHMR dan LocoMujoco, membangun kumpulan data referensi dengan anotasi kontak. Data digunakan untuk melatih kebijakan RL melalui pelacakan bersama robot-objek. HDMI mencapai 67 lintasan pintu berturut-turut.