Sklep DApp | Centrum Web3 dla wydarzeń i gier

Popularne tematy

Zakład polega na budowaniu systemu ciągłego uczenia. Co to oznacza? Aktualizacja Cursor to działający przykład. Nowe dane napływają, system wie, jak filtrować najbardziej wartościowe próbki. Następnie wykorzystuje RL/inne algorytmy do wdrożenia punktu kontrolnego wytrenowanego na podstawie tych danych.

Każdy komponent musi być najpierw dokładnie zbadany, aby zbudować meta-algorytm, który może obsługiwać taki system. Podczas sesji treningowej może ocenić, czy kontynuować, czy zatrzymać sesję na podstawie wczesnych sygnałów. Aby to zrobić, wnioski z setek sesji są przetwarzane w taki system.

Ta linia pracy rozpoczyna ten proces dla problemów rozumowania z weryfikowalnymi nagrodami. Ponieważ jest to najbardziej "stabilne" ustawienie do budowania prostego pipeline'u do uczenia. Następnymi granicami byłyby LLM-jako-sędzia oraz ustawienia nagród z długim horyzontem i opóźnieniem.

869

Najlepsze

Ranking

Ulubione