HDMI (HumanoiD iMitation for Interaction) là một khung công tác cho phép robot hình người học các kỹ năng tương tác với đối tượng toàn thân từ video con người RGB đơn sắc. Nó trích xuất và điều chỉnh lại các tư thế của con người và quỹ đạo của đối tượng bằng cách sử dụng GVHMR và LocoMujoco, xây dựng các tập dữ liệu tham chiếu với các chú thích tiếp xúc. Dữ liệu này được sử dụng để đào tạo một chính sách RL thông qua việc theo dõi đồng thời robot và đối tượng. HDMI đã đạt được 67 lần vượt qua cửa liên tiếp.