Meta pudotti juuri tämän paperin, joka vuotaa vahvistusoppimisen (RL) salaisen kastikkeen LLM:iin. Se laatii RL-reseptin, käyttää 400 000 GPU-tuntia ja asettaa skaalauslain suorituskyvylle, jossa on enemmän laskentaa RL:ssä, kuten klassiset esikoulutuksen skaalauslait. Täytyy lukea tekoälynörteille.
Lähde:
102,66K