HDMI (Humanoid iMitation for Interaction) è un framework che consente ai robot umanoidi di apprendere abilità di interazione con oggetti a corpo intero da video umani monoculari RGB. Esso estrae e riadatta le pose umane e le traiettorie degli oggetti utilizzando GVHMR e LocoMujoco, costruendo dataset di riferimento con annotazioni di contatto. I dati vengono utilizzati per addestrare una politica di RL tramite il co-tracking robot-oggetto. HDMI ha raggiunto 67 attraversamenti consecutivi di porte.