Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Noam Brown
Výzkum uvažování @OpenAI | Spoluvytvářel nadlidské pokerové umělé inteligence Libratus/Pluribus, CICERO Diplomacy AI a modely uvažování OpenAI o3 / o1 / 🍓 uvažování
V roce 2019 mi @hughbzhang poslal podrobný personalizovaný studený e-mail s žádostí o stáž u mě. Byl jsem ohromen tím, co napsal, a jeho minulostí, a tak jsem ho najal jako rezidenta umělé inteligence na jeho rok před postgraduálním studiem.
Kdybych ten e-mail dostal dnes, předpokládal bych, že byl vygenerován umělou inteligencí.

Paul Novosad5. 11. 03:41
Co se stane, když online uchazeči o zaměstnání začnou používat LLM? Není to dobré.
1. Pre-LLM, kvalita motivačního dopisu předpovídá kvalitu vaší práce a dobrá obálka vám zajistí práci
2. LLM vymažou signál a poptávka zaměstnavatelů klesne
3. Model naznačuje, že pracovníci s vysokou schopností ztrácejí nejvíce
1/n

93,17K
Níže je hluboký ponor do toho, proč self play funguje pro hry pro dva hráče s nulovým součtem (2p0s), jako je Go/Poker/Starcraft, ale je mnohem těžší ji používat v doménách "skutečného světa". Tl; DR: Vlastní hra konverguje k Minimaxu ve hrách 2P0s a Minimax je v těchto hrách opravdu užitečný.
Každá konečná hra 2p0s má minimaximální rovnováhu, což je v podstatě neporazitelná strategie v očekávání (za předpokladu, že hráči střídají strany). Například u nůžek na kámen, papír, je minimax 1/3 na každé akci.
Je minimax to, co chceme? Ne nutně. Pokud hrajete minimax ve hře Rock Paper Scissors, kdy většina strategií soupeřů je "vždy házejte kamenem", pak jste zjevně suboptimální, i když neprohráváte v očekávání. To je důležité zejména ve hře jako je poker, protože hraní minimaxu znamená, že na slabých hráčích nemusíte vydělat tolik peněz, jako kdybyste je maximálně využili.
Ale záruka "neprohrajete v očekávání" je opravdu příjemná. A ve hrách jako Chess and Go je rozdíl mezi strategií minimax a strategií, která optimálně využívá populaci soupeřů, zanedbatelný. Z tohoto důvodu je minimax obvykle považován za cíl pro hru dvou hráčů s nulovým součtem. Dokonce i v pokeru je mezi špičkovými profesionály konvenční moudrost hrát minimax (optimální teorie her) a pak se odchýlit pouze tehdy, pokud si všimnete jasných slabin soupeře.
Zvuková hra na vlastní pěst, dokonce i od nuly, zaručeně konverguje k minimaximální rovnováze v konečných hrách 2p0s. To je úžasné! Jednoduchým škálováním paměti a výpočtů a bez lidských dat můžeme konvergovat ke strategii, která je nepřekonatelná v očekáváních.
A co hry, které nejsou 2p0s? Je smutné, že čistá hra na sebe sama bez lidských dat již nezaručuje, že konverguje k užitečné strategii. To je jasně vidět ve hře Ultimatum. Alice musí Bobovi nabídnout $0-100. Bob pak přijme nebo odmítne. Pokud Bob přijme, peníze se rozdělí podle Alicina návrhu. Pokud Petr odmítne, obdrží oba 0 Kč.
Rovnovážná strategie (konkrétně podhra dokonalá rovnováha) spočívá v nabídce 1 penny a Bob ji přijme. Ale ve skutečném světě lidé nejsou tak racionální. Pokud by Alice zkusila tuto strategii se skutečnými lidmi, skončila by s velmi málo penězi. Hra na sebe sama se odpoutává od toho, co my jako lidé považujeme za užitečné.
Spousta lidí navrhuje hry jako "učitel LLM navrhuje těžké matematické problémy a student LLM se je snaží vyřešit", aby dosáhli tréninku samostatné hry, ale to naráží na podobné problémy jako hra Ultimatum, kde rovnováha je odpoutána od toho, co my jako lidé považujeme za užitečné.
Jaká by měla být odměna pro učitele v takové hře? Pokud jsou to 2p0, pak je učitel odměněn, pokud student nedokázal problém vyřešit, takže učitel bude klást nemožné problémy. Dobře, co když ho odměníme za to, že student má 50% úspěšnost? Pak si učitel mohl jen hodit mincí a zeptat se studenta, jestli padla panna. Nebo může učitel požádat studenta, aby dešifroval zprávu pomocí vyčerpávajícího hledání klíčů. Formování odměn k dosažení zamýšleného chování se stává velkou výzvou. To není problém ve hrách 2p0s.
Věřím v vlastní hru. Poskytuje nekonečný zdroj školení a neustále spojuje agenta se stejně zkušeným kolegou. Také jsme viděli, že to funguje v některých složitých prostředích, jako je Diplomacie a Hanabi. Ale aplikovat to mimo hry 2p0s je mnohem těžší, než to bylo pro Go, Poker, Dota a Starcraft.


Noam Brown21. 10. 2025
Vlastní hra funguje tak dobře v šachu, go a pokeru, protože tyto hry jsou hry pro dva hráče s nulovým součtem. To zjednodušuje spoustu problémů. Skutečný svět je chaotičtější, což je důvod, proč jsme zatím nezaznamenali mnoho úspěchů v self play v LLM.
Mimochodem @karpathy si vedl skvěle a většinou s ním souhlasím!
277,51K
Vlastní hra funguje tak dobře v šachu, go a pokeru, protože tyto hry jsou hry pro dva hráče s nulovým součtem. To zjednodušuje spoustu problémů. Skutečný svět je chaotičtější, což je důvod, proč jsme zatím nezaznamenali mnoho úspěchů v self play v LLM.
Mimochodem @karpathy si vedl skvěle a většinou s ním souhlasím!

Dwarkesh Patel21. 10. 2025
.@karpathy říká, že LLM v současné době postrádají kulturní akumulaci a sebehru, která vyhnala lidi ze savany:
Kultura: > "Proč by LLM nemohl napsat knihu pro ostatní LLM? Proč by si ostatní LLM nemohli přečíst tuto knihu LLM a být jí inspirováni nebo šokováni?"
Vlastní hra: > "Je to extrémně výkonné. Evoluce má spoustu konkurence, která pohání inteligenci a evoluci. AlphaGo hraje sám proti sobě a tak se učí být v Go opravdu dobrý. V LLM neexistuje žádný ekvivalent self-play. Proč by například LLM nemohl vytvořit spoustu problémů, které se jiný LLM učí řešit? Pak se LLM vždy snaží sloužit více a více obtížným problémům."
Zeptal jsem se Karpathyho, proč LLM stále ještě nejsou schopni budovat kulturu tak, jak to dělají lidé.
> "Hloupější modelky nápadně připomínají žáky z mateřské školky. [Nejchytřejší modelky se však stále cítí jako] studenti základní školy. Nějak jsme stále neabsolvovali dost na to, abychom mohli [tyto modely] převzít. Můj Claudův kód nebo kodex, pořád mi připadají jako studenti základní třídy. Vím, že mohou skládat doktorandské kvízy, ale stále si kognitivně připadají jako v mateřské školce."
> "Nemyslím si, že mohou vytvářet kulturu, protože jsou to stále děti. Jsou to děti učenců. Mají dokonalou paměť. Dokážou přesvědčivě vytvořit všechny druhy břečky, která vypadá opravdu dobře. Ale pořád si myslím, že opravdu nevědí, co dělají. Nemají opravdu znalosti o všech těch malých zaškrtávacích políčkách, která stále musíme sbírat."
321K
Top
Hodnocení
Oblíbené
