Ihmiset unohtavat, että käytäntögradienttiin perustuva RL on datatehottomin koulutusmuoto. Tulee olemaan suuria algoritmisia edistysaskeleita perusmallien RL:ssä, luultavasti käyttämällä jotain keinotekoisen uteliaisuuden kaltaista (). Mutta nykyiset menetelmät eivät ole olemassa.