Die Leute vergessen, dass das Policy-Gradient-basierte RL die datenineffizienteste Form des Trainings ist. Es wird bedeutende algorithmische Fortschritte im RL der Basis-Modelle geben, wahrscheinlich unter Verwendung von etwas wie künstlicher Neugier (). Aber die aktuellen Methoden sind noch nicht so weit.