Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Zakład polega na budowaniu systemu ciągłego uczenia. Co to oznacza? Aktualizacja Cursor to działający przykład. Nowe dane napływają, system wie, jak filtrować najbardziej wartościowe próbki. Następnie wykorzystuje RL/inne algorytmy do wdrożenia punktu kontrolnego wytrenowanego na podstawie tych danych.

23 sie 2025
Wprowadzamy lepszy przepis na zbieranie danych po treningu przy użyciu GRPO. Zbieranie próbek od ekspertów jest kosztowne, budżety na adnotacje są ograniczone. Które przykłady są naprawdę warte zapłacenia? Odkrywamy, że skupienie się na trudnych próbkach skutkuje poprawą o 30-40%.
1/7

Każdy komponent musi być najpierw dokładnie zbadany, aby zbudować meta-algorytm, który może obsługiwać taki system. Podczas sesji treningowej może ocenić, czy kontynuować, czy zatrzymać sesję na podstawie wczesnych sygnałów. Aby to zrobić, wnioski z setek sesji są przetwarzane w taki system.
Ta linia pracy rozpoczyna ten proces dla problemów rozumowania z weryfikowalnymi nagrodami. Ponieważ jest to najbardziej "stabilne" ustawienie do budowania prostego pipeline'u do uczenia. Następnymi granicami byłyby LLM-jako-sędzia oraz ustawienia nagród z długim horyzontem i opóźnieniem.
869
Najlepsze
Ranking
Ulubione