HDMI (HumanoiD iMitation for Interaction) este un cadru care permite roboților umanoizi să învețe abilități de interacțiune cu obiecte cu întregul corp din videoclipuri umane RGB monoculare. Extrage și redirecționează pozițiile umane și traiectoriile obiectelor folosind GVHMR și LocoMujoco, construind seturi de date de referință cu adnotări de contact. Datele sunt utilizate pentru a antrena o politică RL prin co-urmărire robot-obiect. HDMI a realizat 67 de traversări consecutive ale ușilor.