"El entrenamiento de la imaginación" se refiere al proceso mediante el cual la política del agente se optimiza completamente dentro del modelo de mundo aprendido (es decir, en la "imaginación"), sin interacción adicional con el entorno real. Para robots reales, se utilizaría video de un entorno de fábrica (incluidas las acciones y sus efectos) para construir un modelo de mundo realista, que luego se utiliza para desarrollar reglas de comportamiento del robot (políticas) a través del entrenamiento de la imaginación. "Presentamos Dreamer 4, un agente escalable que aprende a resolver tareas de control complejas mediante el aprendizaje por refuerzo dentro de un modelo de mundo rápido y preciso. El agente consta de un tokenizador y un modelo de dinámica, como se muestra en la Figura 2. El tokenizador comprime los fotogramas de video en representaciones continuas y el modelo de dinámica predice las representaciones dadas las acciones entrelazadas, ambos utilizando la misma arquitectura de transformador eficiente. El tokenizador se entrena utilizando auto-codificación enmascarada y la dinámica se entrena utilizando un objetivo de forzado de atajo para permitir generaciones interactivas con un pequeño número de pasadas hacia adelante y prevenir la acumulación de errores a lo largo del tiempo. Como se detalla en el Algoritmo 1, primero preentrenamos el tokenizador y el modelo de mundo en videos y acciones, luego ajustamos la política y el modelo de recompensa en el modelo de mundo entrelazando las incrustaciones de tareas, y finalmente post-entrenamos la política a través del entrenamiento de la imaginación."