A aposta está em construir um sistema de aprendizagem contínua. O que isso significa? A atualização do Cursor é um exemplo prático. Novos dados chegam, o sistema sabe como filtrar as amostras mais valiosas. Em seguida, utiliza RL/outros algoritmos para implementar um ponto de verificação treinado com os dados mencionados.
Pratyush Ranjan Tiwari
Pratyush Ranjan Tiwari23/08/2025
We introduce a better recipe for collecting post-training data when using GRPO. Collecting samples from experts is expensive, annotation budgets are limited. Which examples are actually worth paying for? We find that focusing on hard samples results in a 30-40% improvement. 1/7
Cada componente deve ser estudado cuidadosamente primeiro para construir um meta-algoritmo que possa operar tal sistema. Durante uma execução de treinamento, ele pode avaliar se deve continuar ou parar a execução com base em sinais iniciais. Para fazer isso, percepções de centenas de execuções são digeridas em tal sistema.
Esta linha de trabalho inicia este processo para problemas de raciocínio com recompensas verificáveis. Como este é o ambiente mais "estável" para construir um pipeline simples para aprendizagem. As próximas fronteiras seriam LLM-como-juiz e configurações de recompensa atrasada de longo prazo.
1,1K