La gente olvida que la RL basada en gradientes de políticas es la forma de entrenamiento más ineficiente en cuanto a datos. Va a haber grandes avances algorítmicos en la RL de los modelos base, probablemente utilizando algo así como la curiosidad artificial (). Pero los métodos actuales no están ahí.