Люди забувають, що RL на основі градієнта є найбільш неефективною формою навчання. Це буде серйозним алгоритмічним прогресом у RL'ing базових моделей, ймовірно, з використанням чогось на кшталт штучної цікавості (). Але нинішніх методів там немає.