HDMI (HumanoiD iMitation for Interaction) هو إطار عمل يمكن الروبوتات البشرية من تعلم مهارات تفاعل الكائنات لكامل الجسم من مقاطع الفيديو البشرية أحادية العين RGB. يقوم باستخراج وإعادة استهداف الأوضاع البشرية ومسارات الكائنات باستخدام GVHMR و LocoMujoco ، وبناء مجموعات بيانات مرجعية مع تعليقات توضيحية للاتصال. يتم استخدام البيانات لتدريب سياسة RL عبر التتبع المشترك لكائن الروبوت. حقق HDMI 67 اجتياز متتالي للأبواب.