Curiosamente, fizemos muitas das mesmas observações em nossos exemplos difíceis são os melhores para o artigo GRPO do mês passado Incluindo a porcentagem de aprendizado na explicação do conjunto de treinamento para esse fenômeno