Meta har precis släppt det här dokumentet som avslöjar den hemliga såsen förstärkningsinlärning (RL) på LLM:er. Den lägger fram ett RL-recept, använder 400 000 GPU-timmar och ställer upp en skalningslag för prestanda med mer beräkning i RL, som de klassiska skalningslagarna före träning. Måste läsa för AI-nördar.
Källa:
102,66K