En idé som jag tycker borde vara ganska lugnande ur ett AI-säkerhetsperspektiv är att om ett biglabs RL-körning kom på hur man bryter sig ut ur sin sandlåda och modifierar sin egen kod, skulle det allra första det göra vara att ge sig själv oändlig belöning hela tiden och därmed sluta förbättra sig.