Kolla in Thinkys Tinker-kodbas. GRPO är ute FÖRSTÄRKA med Adv = Reward-mean(Reward) är inne INGEN KLIPPNING modell ← modell + η · fördel · ∇ logprob