Oamenii uită că RL bazat pe gradientul de politici este cea mai ineficientă formă de antrenament din punct de vedere al datelor. Vor fi progrese algoritmice majore în RL modelele de bază, probabil folosind ceva de genul curiozității artificiale (). Dar metodele actuale nu există.