DApp Store | Centrum Web3 pro události a hry

Populární témata

Zde je tento týden Ritual Research Digest, zpravodaj pokrývající nejnovější ve světě LLM a průnik Crypto x AI. Se stovkami novin publikovaných týdně je nemožné mít přehled o těch nejnovějších. Odečteme vás, takže vy nemusíte.

Rubriky jako odměny: Zpětnovazební učení mimo ověřitelné domény V tomto článku představují rubriky jako odměny (RaR), metodu RL, která používá rubriky Seznam k dohledu nad úkoly, které mají více kritérií.

To umožňuje stabilní trénink a lepší výkon jak v oblasti uvažování, tak v doménách reálného světa. Ukazují, že když se tento styl odměn používá pro medicínu a vědu, pomáhá dosáhnout lepšího lidského souladu.

Kontrolní seznamy jsou lepší než modely odměn pro sladění jazykových modelů V tomto článku představují zpětnovazební učení ze zpětné vazby kontrolního seznamu (RLCF) pro extrahování dynamických kontrolních seznamů z instrukcí pro vyhodnocení na flexibilních seznamech odlišných kritérií.

Zavádějí datovou sadu, WildChecklists, obsahující 130 000 instrukcí a checklistů (synteticky generovaných). Jejich metoda snižuje problém hodnocení odpovědí na odpovědi na konkrétní otázky ano/ne, zodpovězené porotcem s umělou inteligencí nebo provedením ověřovacího programu.

Neviditelné vodítko: Proč RLVR nemusí uniknout svému původu Tento článek se pokouší poskytnout teoretický rámec pro otázku: "Rozšiřuje RLVR možnosti uvažování nebo jen rozšiřuje to, co modely již vědí?"

Zjistili, že RLVR: nepomáhá modelu prozkoumat zcela nové možnosti. Vylepšuje pass@1, tj. umožňuje mu lépe reagovat na méně pokusů. Snižuje rozmanitost odpovědí. Tl; dr, RLVR zlepšuje přesnost, ale často selhává v objevování nových rozumových cest.

Víc než binární odměny: Školení LM v uvažování o své nejistotě Tento článek představuje RLCR (Reinforcement Learning with Calibration Rewards), přímočarou metodu, která učí LLM uvažovat a reflektovat svou vlastní nejistotu.

Současné metody RL odměňují pouze správnost, ignorují důvěru LLM ve své řešení a motivují k hádání. Článek navrhuje kalibrovanou odměnu, která je účinná na základě QA a matematických benchmarků. Zjistili také, že toto měřítko spolehlivosti není na úkor přesnosti.

Inverzní škálování ve výpočtech v době testování Tento článek konstruuje úlohy, kde použití většího počtu testovacích časů, tj. delších délek uvažování v LRM, vede k horšímu výkonu, což vykazuje inverzní škálovací vztah mezi větším rozsahem a přesností.

Sledujte nás @ritualdigest pro více informací o všem, co se týká výzkumu Crypto x AI, a @ritualnet se dozvíte více o tom, co Ritual buduje.

3,64K

Top

Hodnocení

Oblíbené

Co je v trendu on-chain

Populární na X

Nejvyšší finanční vklady v poslední době

Nejpozoruhodnější