Lidé zapomínají, že RL založené na Policy Gradient je datově nejneefektivnější formou školení. Bude to velký algoritmický pokrok v RL základních modelů, pravděpodobně s použitím něčeho jako umělé zvědavosti (). Současné metody však neexistují.