HDMI (Humanoid iMitation for Interaction) é uma estrutura que permite que robôs humanoides aprendam habilidades de interação com objetos de corpo inteiro a partir de vídeos humanos monoculares em RGB. Extrai e redireciona poses humanas e trajetórias de objetos usando GVHMR e LocoMujoco, construindo conjuntos de dados de referência com anotações de contato. Os dados são usados para treinar uma política de RL através do co-tracking robô-objeto. O HDMI alcançou 67 travessias consecutivas de portas.