HDMI (HumanoiD iMitation for Interaction) es un marco que permite a los robots humanoides aprender habilidades de interacción con objetos de todo el cuerpo a partir de videos humanos monoculares RGB. Extrae y reorienta poses humanas y trayectorias de objetos utilizando GVHMR y LocoMujoco, construyendo conjuntos de datos de referencia con anotaciones de contacto. Los datos se utilizan para entrenar una política de RL a través del seguimiento conjunto robot-objeto. HDMI logró 67 recorridos de puerta consecutivos.