DApp Store | Centrum Web3 pro události a hry

Populární témata

Andrej Karpathy

Stavební @EurekaLabsAI. Dříve ředitel AI @ Tesla, zakládající tým @ OpenAI, CS231n/PhD @ Stanford. Rád trénuji velké hluboké neuronové sítě.

Docela se mi líbí nový článek DeepSeek-OCR. Je to dobrý OCR model (možná o něco horší než tečky) a ano, sběr dat atd., ale stejně na tom nezáleží. Zajímavější částí pro mě (zejména jako počítačový vision v srdci, který se dočasně maskuje jako osoba v přirozeném jazyce) je, zda jsou pixely lepšími vstupy do LLM než text. Zda jsou textové tokeny nehospodárné a prostě hrozné, na vstupu. Možná by dávalo větší smysl, aby všechny vstupy do LLM byly vždy pouze obrázky. I když máte náhodou čistě textový vstup, možná byste ho raději vykreslili a pak ho vložili: - více informací komprese (viz článek) = > kratší kontextová okna, větší efektivita - výrazně obecnější informační tok = > nejen text, ale např. tučný text, barevný text, libovolné obrázky. - vstup lze nyní snadno a standardně zpracovávat obousměrnou pozorností, nikoli autoregresivní pozorností - mnohem výkonnější. - smazat tokenizer (na vstupu)!! Už jsem se rozplýval nad tím, jak moc se mi tokenizér nelíbí. Tokenizátory jsou ošklivé, oddělené, ne end-to-end fáze. "Importuje" veškerou ošklivost Unicode, bajtové kódování, dědí spoustu historického balastu, rizika bezpečnosti/jailbreaku (např. pokračovací bajty). Díky tomu vypadají dva znaky, které vypadají stejně jako oko a interně v síti jako dva zcela odlišné tokeny. Usmívající se emotikon vypadá jako podivný token, ne jako ... skutečný usměvavý obličej, pixely a tak dále, a všechno to přenosové učení, které to přináší. Tokenizátor musí jít. OCR je jen jednou z mnoha užitečných textových úloh zaměřených na zrakové >. A textové > textové úlohy lze změnit na úlohy s vizí >textem. Ne naopak. Mnoho zpráv uživatele jsou obrázky, ale dekodér (odpověď asistenta) zůstává textem. Je mnohem méně zřejmé, jak realisticky vystupovat pixely... nebo jestli byste chtěli. Teď musím také bojovat s nutkáním vedlejší úkol vytvořit verzi nanochatu, která obsahuje pouze obrazový vstup...

Je mi potěšením přijít na Dwarkesh minulý týden, myslím, že otázky a konverzace byly opravdu dobré. Znovu jsem se teď díval na modul. Za prvé, ano, vím a je mi líto, že mluvím tak rychle :). Je to k mé škodě, protože někdy moje mluvní vlákno předčí mé myšlenkové vlákno, takže si myslím, že jsem kvůli tomu zpackal několik vysvětlení, a někdy jsem byl také nervózní, že zacházím příliš do tangenty nebo příliš hluboko do něčeho relativně falešného. Každopádně pár poznámek/ukazatelů: časové osy AGI. Moje komentáře k časovým osám AGI se zdají být nejtrendovější částí rané reakce. Toto je "desetiletí agentů" je odkaz na tento dřívější tweet V podstatě jsou mé časové osy AI asi 5-10x pesimistické ve srovnání s tím, co najdete na domácí párty ve vašem sousedství SF AI nebo na časové ose vašeho Twitteru, ale stále docela optimistické ve srovnání s rostoucí vlnou popíračů a skeptiků AI. Zdánlivý rozpor není: imo jsme současně 1) viděli obrovský pokrok v posledních letech s LLM, zatímco 2) stále zbývá spousta práce (grunt práce, integrační práce, senzory a aktuátory do fyzického světa, společenská práce, bezpečnost a zabezpečení práce (útěky z vězení, otravy atd.)) a také výzkum, který je třeba udělat, než budeme mít entitu, kterou byste raději najali před osobou pro libovolnou práci v svět. Myslím si, že celkově by 10 let mělo být pro AGI velmi býčí časová osa, jen v kontrastu se současným humbukem to tak nevypadá. Zvířata vs duchové. Můj dřívější zápis o Suttonově podcastu. Mám podezření, že existuje jediný jednoduchý algoritmus, který můžete vypustit do světa a který se vše naučí od nuly. Pokud někdo něco takového postaví, budu se mýlit a bude to ten nejneuvěřitelnější průlom v AI. Podle mého názoru zvířata nejsou vůbec příkladem toho - jsou evolucí obdařena tunou inteligence a učení, které dělají, je celkově zcela minimální (příklad: Zebra při narození). Nasadíme si inženýrské klobouky a nebudeme znovu dělat evoluci. Ale s LLM jsme narazili na alternativní přístup k "předbalení" tuny inteligence do neuronové sítě - ne evolucí, ale předpovídáním dalšího tokenu přes internet. Tento přístup vede k jinému druhu entity v oblasti inteligence. Na rozdíl od zvířat, spíše jako duchové nebo duchové. Ale můžeme (a měli bychom) je časem udělat více zvířecí a v některých ohledech je to to, o čem je spousta hraniční práce. Na RL. RL jsem již několikrát kritizoval, např. . Za prvé, "vysává dohled brčkem", takže si myslím, že signál/flop je velmi špatný. RL je také velmi hlučný, protože dokončení může obsahovat spoustu chyb, které by vás mohly povzbudit (pokud náhodou narazíte na správnou odpověď), a naopak brilantní tokeny vhledu, které by vás mohly odradit (pokud to později pokazíte). Procesní supervize a LLM soudci mají také problémy. Myslím, že uvidíme alternativní paradigmata učení. Jsem dlouhá "agentická interakce", ale krátká "zpětnovazební učení". V poslední době jsem viděl řadu článků, které podle mého názoru štěkají na správný strom v duchu toho, co jsem nazval "systémové promptní učení", ale myslím, že je také mezera mezi nápady na arxiv a skutečnou, v měřítku implementací v hraniční laboratoři LLM, která funguje obecným způsobem. Celkově jsem docela optimistický, že v této dimenzi zbývající práce uvidíme poměrně brzy dobrý pokrok a např. dokonce bych řekl, že paměť ChatGPT a tak dále jsou primordiálně nasazené příklady nových paradigmat učení. Kognitivní jádro. Můj dřívější příspěvek o "kognitivním jádru": , myšlenka ořezávání LLM, ztěžování zapamatování nebo aktivní odstraňování paměti, aby se zlepšili v generalizaci. Jinak se příliš opírají o to, co si zapamatovali. Lidé si nemohou tak snadno zapamatovat, což nyní v kontrastu s tím vypadá spíše jako funkce než jako chyba. Možná je neschopnost zapamatovat si jakousi regularizací. Také můj příspěvek z doby před chvílí o tom, jak je trend ve velikosti modelů "zpětný" a proč "modely se musí nejprve zvětšit, než se mohou zmenšit" Cestování časem do Yann LeCun 1989. Toto je příspěvek, který jsem udělal velmi uspěchanou / špatnou práci popsat na podu: . V podstatě - o kolik byste mohli zlepšit výsledky Yanna LeCuna se znalostí 33 let algoritmického pokroku? Jak omezené byly výsledky jednotlivých algoritmů, dat a výpočtů? Případová studie tam. nanochat. Moje komplexní implementace školicího/inferenčního kanálu ChatGPT (to nejnutnější) Na agentech LLM. Moje kritika průmyslu je spíše v přestřelování nástrojů ve srovnání se současnými schopnostmi. Žiji v tom, co považuji za mezilehlý svět, kde chci spolupracovat s LLM a kde se shodují naše klady a zápory. Průmysl žije v budoucnosti, kde plně autonomní entity paralelně spolupracují na psaní veškerého kódu a lidé jsou k ničemu. Například nechci agenta, který se vypne na 20 minut a vrátí se s 1 000 řádky kódu. Rozhodně se necítím připravený na to, abych dohlížel na tým 10 z nich. Rád bych postupoval po částech, které si mohu nechat v hlavě, kde LLM vysvětluje kód, který píše. Chtěl bych, aby mi dokázal, že to, co udělal, je správné, chci, aby si vytáhl dokumentaci k API a ukázal mi, že věci používal správně. Chci, aby si dělal méně domněnek a ptal se/spolupracoval se mnou, když si něčím není jistý. Chci se učit za pochodu a stát se lepším programátorem, ne jen dostávat hory kódu, o kterém mi říkají, že funguje. Jen si myslím, že nástroje by měly být realističtější vzhledem k jejich schopnostem a tomu, jak zapadají do dnešního odvětví, a obávám se, že pokud se to neudělá dobře, mohli bychom skončit s horami odpadu, které se hromadí v softwaru, a nárůstem zranitelností, narušení bezpečnosti atd. Automatizace práce. Jak se daří radiologům a jaké práce jsou více náchylné k automatizaci a proč. Fyzika. Děti by se měly fyziku učit v raném vzdělávání ne proto, že se z ní budou učit, ale proto, že je to předmět, který nejlépe nastartuje mozek. Fyzici jsou intelektuální embryonální kmenové buňky, mám delší příspěvek, který byl napůl napsán v mých návrzích pro ~ rok, který doufám, že brzy dokončím. Ještě jednou díky Dwarkeshi za pozvání!

Top

Hodnocení

Oblíbené