Interessanterweise haben wir viele der gleichen Beobachtungen in unseren schwierigen Beispielen gemacht, die die besten für das GRPO-Papier vom letzten Monat sind. Einschließlich des lernbaren Prozentsatzes in der Erklärung des Trainingssatzes zu diesem Phänomen.