La gente olvida que el aprendizaje por refuerzo basado en Policy Gradient es la forma de entrenamiento más ineficiente en términos de datos. Va a haber avances algorítmicos importantes en el aprendizaje por refuerzo de los modelos base, probablemente utilizando algo como la curiosidad artificial (). Pero los métodos actuales no están ahí.