Zde je tento týden Ritual Research Digest, zpravodaj pokrývající nejnovější ve světě LLM a průnik Crypto x AI. Se stovkami novin publikovaných týdně je nemožné mít přehled o těch nejnovějších. Odečteme vás, takže vy nemusíte.
Rubriky jako odměny: Zpětnovazební učení mimo ověřitelné domény V tomto článku představují rubriky jako odměny (RaR), metodu RL, která používá rubriky Seznam k dohledu nad úkoly, které mají více kritérií.
To umožňuje stabilní trénink a lepší výkon jak v oblasti uvažování, tak v doménách reálného světa. Ukazují, že když se tento styl odměn používá pro medicínu a vědu, pomáhá dosáhnout lepšího lidského souladu.
Kontrolní seznamy jsou lepší než modely odměn pro sladění jazykových modelů V tomto článku představují zpětnovazební učení ze zpětné vazby kontrolního seznamu (RLCF) pro extrahování dynamických kontrolních seznamů z instrukcí pro vyhodnocení na flexibilních seznamech odlišných kritérií.
Zavádějí datovou sadu, WildChecklists, obsahující 130 000 instrukcí a checklistů (synteticky generovaných). Jejich metoda snižuje problém hodnocení odpovědí na odpovědi na konkrétní otázky ano/ne, zodpovězené porotcem s umělou inteligencí nebo provedením ověřovacího programu.
Neviditelné vodítko: Proč RLVR nemusí uniknout svému původu Tento článek se pokouší poskytnout teoretický rámec pro otázku: "Rozšiřuje RLVR možnosti uvažování nebo jen rozšiřuje to, co modely již vědí?"
Zjistili, že RLVR: nepomáhá modelu prozkoumat zcela nové možnosti. Vylepšuje pass@1, tj. umožňuje mu lépe reagovat na méně pokusů. Snižuje rozmanitost odpovědí. Tl; dr, RLVR zlepšuje přesnost, ale často selhává v objevování nových rozumových cest.
Víc než binární odměny: Školení LM v uvažování o své nejistotě Tento článek představuje RLCR (Reinforcement Learning with Calibration Rewards), přímočarou metodu, která učí LLM uvažovat a reflektovat svou vlastní nejistotu.
Současné metody RL odměňují pouze správnost, ignorují důvěru LLM ve své řešení a motivují k hádání. Článek navrhuje kalibrovanou odměnu, která je účinná na základě QA a matematických benchmarků. Zjistili také, že toto měřítko spolehlivosti není na úkor přesnosti.
Inverzní škálování ve výpočtech v době testování Tento článek konstruuje úlohy, kde použití většího počtu testovacích časů, tj. delších délek uvažování v LRM, vede k horšímu výkonu, což vykazuje inverzní škálovací vztah mezi větším rozsahem a přesností.
Sledujte nás @ritualdigest pro více informací o všem, co se týká výzkumu Crypto x AI, a @ritualnet se dozvíte více o tom, co Ritual buduje.
3,64K