Bra jobbat - utforskande RL utan handgjorda verifierare är den självklara nästa skalningssatsningen