⚡O FP8 torna o RL mais rápido - mas ao custo do desempenho. Apresentamos o FlashRL, a primeira receita de RL de código aberto e funcional que aplica INT8/FP8 para lançamento sem perder desempenho em comparação com o BF16! 📝 Blogue: 💻 Código:
40,58K