Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
6 miesięcy po wydaniu naszego artykułu, wciąż pamiętam debaty na temat usunięcia terminu normalizacji długości w DrGRPO. A ludzie stopniowo myślą, że DrGRPO polega tylko na usunięciu std, ignorując najważniejszy i subtelny (długościowy) błąd, na który próbowaliśmy zwrócić uwagę społeczności.
Nawet teraz wiele artykułów (i kodu open-source) wciąż dzieli stratę gradientu polityki przez długość odpowiedzi—biorąc średnią zamiast sumy...
Na szczęście, z implementacją Tinkera jako odniesieniem, mam nadzieję, że będzie to bardziej przekonujące dla społeczności OSS, aby przyjęła obliczenia strat RL bezstronnych.
Jestem bardzo wdzięczny Thinking Machines za przesuwanie granic otwartej nauki 🚀

Najlepsze
Ranking
Ulubione