HDMI(HumanoiD iMitation for Interaction)は、ヒューマノイドロボットが単眼のRGBヒューマン映像から全身物体のインタラクションスキルを学習できるようにするフレームワークです。 GVHMR と LocoMujoco を使用して人間のポーズと物体の軌跡を抽出してリターゲティングし、接触アノテーション付きの参照データセットを構築します。このデータは、ロボットとオブジェクトの協調追跡を介して RL ポリシーをトレーニングするために使用されます。 HDMIは67回連続ドアトラバーサルを達成しました。