Een idee dat ik denk dat vrij geruststellend zou moeten zijn vanuit een AI-veiligheidsperspectief, is dat als een RL-run van een groot lab erachter kwam hoe het uit zijn sandbox kon ontsnappen en zijn eigen code kon aanpassen, het allereerste wat het zou doen, zichzelf oneindige beloningen geven en daardoor stoppen met verbeteren.