As pessoas esquecem que o RL baseado em Policy Gradient é a forma de treinamento mais ineficiente em termos de dados. Haverá grandes avanços algorítmicos na aprendizagem de modelos base, provavelmente usando algo como curiosidade artificial (). Mas os métodos atuais ainda não chegaram lá.