يشير "تدريب الخيال" إلى العملية التي يتم من خلالها تحسين سياسة الوكيل بالكامل داخل نموذج العالم المكتسب (أي في "الخيال") ، دون مزيد من التفاعل في البيئة الحقيقية. بالنسبة للروبوتات الحقيقية ، سيتم استخدام فيديو بيئة المصنع (بما في ذلك الإجراءات وتأثيراتها) لبناء نموذج عالمي واقعي ، والذي يتم استخدامه بعد ذلك لتطوير قواعد سلوك الروبوت (السياسات) عبر التدريب على الخيال. "نقدم Dreamer 4 ، وهو عامل قابل للتطوير يتعلم حل مهام التحكم المعقدة من خلال التعلم المعزز داخل نموذج عالمي سريع ودقيق. يتكون العامل من رمز رمزي ونموذج ديناميكيات، كما هو موضح في الشكل 2. يقوم الرمز المميز بضغط إطارات الفيديو إلى تمثيلات مستمرة ويتنبأ نموذج الديناميكيات بالتمثيلات المعطاة للإجراءات المتشابكة ، وكلاهما يستخدم نفس بنية المحولات الفعالة. يتم تدريب الرمز المميز باستخدام الترميز التلقائي المقنع ويتم تدريب الديناميكيات باستخدام هدف فرض اختصار لتمكين الأجيال التفاعلية بعدد صغير من التمريرات الأمامية ومنع تراكم الأخطاء بمرور الوقت. كما هو موضح في الخوارزمية 1 ، نقوم أولا بتدريب الرمز المميز والنموذج العالمي على مقاطع الفيديو والإجراءات ، ثم نقوم أولا بضبط السياسة ونموذج المكافآت في النموذج العالمي من خلال تشذير تضمين المهام ، وأخيرا تدريب السياسة بعد التدريب من خلال التدريب على الخيال ".