HDMI (HumanoiD iMitation for Interaction) er et rammeverk som gjør det mulig for humanoide roboter å lære interaksjonsferdigheter for hele kroppen fra monokulære RGB-menneskelige videoer. Den trekker ut og målretter menneskelige positurer og objektbaner ved hjelp av GVHMR og LocoMujoco, og bygger referansedatasett med kontaktmerknader. Dataene brukes til å trene en RL-policy via robot-objekt-co-tracking. HDMI oppnådde 67 påfølgende dørgjennomganger.