Revisa la base de código Tinker de Thinky. GRPO está fuera REINFORCE con Adv = Recompensa-media(Recompensa) está dentro SIN CLIPING modelo ← modelo + η · ventaja · ∇ logprob