Orang lupa bahwa RL berbasis Gradien Kebijakan adalah bentuk pelatihan yang paling tidak efisien data. Akan menjadi kemajuan algoritmik besar dalam RL'ing model dasar, mungkin menggunakan sesuatu seperti keingintahuan buatan (). Tetapi metode saat ini tidak ada.