Folk glemmer at Policy Gradient-basert RL er den mest dataineffektive formen for opplæring. Kommer til å bli store algoritmiske fremskritt i RL-ing av basismodellene, sannsynligvis ved hjelp av noe sånt som kunstig nysgjerrighet (). Men de nåværende metodene er ikke der.