Parece que outras pessoas convergem para usar vllm v1 logprob para a proporção de importância para corrigir o problema de estabilidade. Acho que tenho PTSD desse tipo de acidente de rl
Zichen Liu
Zichen Liu22 de ago. de 2025
Com apenas algumas linhas de código, a correção sugerida por Feng (@fengyao1909) - aplicando amostragem de importância na política de comportamento - resolveu a instabilidade de treinamento no meu caso (oat). Acredito que o resultado também pode ser generalizado para outras estruturas de RL. Ótimo trabalho, Feng!
6,89K