"Antrenamentul imaginației" se referă la procesul prin care politica agentului este optimizată în întregime în cadrul modelului lumii învățate (adică în "imaginație"), fără o interacțiune suplimentară cu mediul real. Pentru roboții reali, videoclipul unui mediu de fabrică (inclusiv acțiunile și efectele acestora) ar fi folosit pentru a construi un model realist al lumii, care este apoi folosit pentru a dezvolta reguli (politici) comportamentale ale roboților prin antrenarea imaginației. "Vă prezentăm Dreamer 4, un agent scalabil care învață să rezolve sarcini complexe de control prin învățare prin întărire într-un model de lume rapid și precis. Agentul constă dintr-un tokenizator și un model de dinamică, așa cum se arată în Figura 2. Tokenizatorul comprimă cadrele video în reprezentări continue, iar modelul dinamic prezice reprezentările date acțiuni intercalate, ambele folosind aceeași arhitectură eficientă de transformare. Tokenizatorul este antrenat folosind autocodificarea mascată, iar dinamica este antrenată folosind un obiectiv de forțare a comenzilor rapide pentru a permite generări interactive cu un număr mic de treceri înainte și pentru a preveni acumularea de erori în timp. După cum este subliniat în Algoritmul 1, mai întâi antrenăm în prealabil tokenizatorul și modelul lumii pe videoclipuri și acțiuni, apoi ajustăm modelul de politică și recompensă în modelul mondial prin intercalarea încorporarilor de sarcini și, în cele din urmă, post-antrenăm politica prin antrenarea imaginației."