Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andrej Karpathy
Stavební @EurekaLabsAI. Dříve ředitel AI @ Tesla, zakládající tým @ OpenAI, CS231n/PhD @ Stanford. Rád trénuji velké hluboké neuronové sítě.
Docela se mi líbí nový článek DeepSeek-OCR. Je to dobrý OCR model (možná o něco horší než tečky) a ano, sběr dat atd., ale stejně na tom nezáleží.
Zajímavější částí pro mě (zejména jako počítačový vision v srdci, který se dočasně maskuje jako osoba v přirozeném jazyce) je, zda jsou pixely lepšími vstupy do LLM než text. Zda jsou textové tokeny nehospodárné a prostě hrozné, na vstupu.
Možná by dávalo větší smysl, aby všechny vstupy do LLM byly vždy pouze obrázky. I když máte náhodou čistě textový vstup, možná byste ho raději vykreslili a pak ho vložili:
- více informací komprese (viz článek) = > kratší kontextová okna, větší efektivita
- výrazně obecnější informační tok = > nejen text, ale např. tučný text, barevný text, libovolné obrázky.
- vstup lze nyní snadno a standardně zpracovávat obousměrnou pozorností, nikoli autoregresivní pozorností - mnohem výkonnější.
- smazat tokenizer (na vstupu)!! Už jsem se rozplýval nad tím, jak moc se mi tokenizér nelíbí. Tokenizátory jsou ošklivé, oddělené, ne end-to-end fáze. "Importuje" veškerou ošklivost Unicode, bajtové kódování, dědí spoustu historického balastu, rizika bezpečnosti/jailbreaku (např. pokračovací bajty). Díky tomu vypadají dva znaky, které vypadají stejně jako oko a interně v síti jako dva zcela odlišné tokeny. Usmívající se emotikon vypadá jako podivný token, ne jako ... skutečný usměvavý obličej, pixely a tak dále, a všechno to přenosové učení, které to přináší. Tokenizátor musí jít.
OCR je jen jednou z mnoha užitečných textových úloh zaměřených na zrakové >. A textové > textové úlohy lze změnit na úlohy s vizí >textem. Ne naopak.
Mnoho zpráv uživatele jsou obrázky, ale dekodér (odpověď asistenta) zůstává textem. Je mnohem méně zřejmé, jak realisticky vystupovat pixely... nebo jestli byste chtěli.
Teď musím také bojovat s nutkáním vedlejší úkol vytvořit verzi nanochatu, která obsahuje pouze obrazový vstup...

vLLM20. 10. 19:31
🚀 DeepSeek-OCR — nová hranice OCR od společnosti @deepseek_ai, která zkoumá optickou kompresi kontextu pro LLM, běží na vLLM ⚡ bleskově rychle (~2500 tokenů/s na A100-40G) — poháněno vllm==0.8.5 pro podporu modelu day-0.
🧠 Komprimuje vizuální kontexty až na 20 × při zachování 97% přesnosti OCR při <10×.
📄 Překonává GOT-OCR2.0 a MinerU2.0 na OmniDocBench s použitím menšího počtu vizuálních tokenů.
🤝 Tým vLLM spolupracuje s DeepSeek na zavedení oficiální podpory DeepSeek-OCR do příští verze vLLM – díky čemuž je multimodální inference ještě rychlejší a snadněji škálovatelná.
🔗
#vLLM #DeepSeek #OCR #LLM #VisionAI #DeepLearning



1,3M
Je mi potěšením přijít na Dwarkesh minulý týden, myslím, že otázky a konverzace byly opravdu dobré.
Znovu jsem se teď díval na modul. Za prvé, ano, vím a je mi líto, že mluvím tak rychle :). Je to k mé škodě, protože někdy moje mluvní vlákno předčí mé myšlenkové vlákno, takže si myslím, že jsem kvůli tomu zpackal několik vysvětlení, a někdy jsem byl také nervózní, že zacházím příliš do tangenty nebo příliš hluboko do něčeho relativně falešného. Každopádně pár poznámek/ukazatelů:
časové osy AGI. Moje komentáře k časovým osám AGI se zdají být nejtrendovější částí rané reakce. Toto je "desetiletí agentů" je odkaz na tento dřívější tweet V podstatě jsou mé časové osy AI asi 5-10x pesimistické ve srovnání s tím, co najdete na domácí párty ve vašem sousedství SF AI nebo na časové ose vašeho Twitteru, ale stále docela optimistické ve srovnání s rostoucí vlnou popíračů a skeptiků AI. Zdánlivý rozpor není: imo jsme současně 1) viděli obrovský pokrok v posledních letech s LLM, zatímco 2) stále zbývá spousta práce (grunt práce, integrační práce, senzory a aktuátory do fyzického světa, společenská práce, bezpečnost a zabezpečení práce (útěky z vězení, otravy atd.)) a také výzkum, který je třeba udělat, než budeme mít entitu, kterou byste raději najali před osobou pro libovolnou práci v svět. Myslím si, že celkově by 10 let mělo být pro AGI velmi býčí časová osa, jen v kontrastu se současným humbukem to tak nevypadá.
Zvířata vs duchové. Můj dřívější zápis o Suttonově podcastu. Mám podezření, že existuje jediný jednoduchý algoritmus, který můžete vypustit do světa a který se vše naučí od nuly. Pokud někdo něco takového postaví, budu se mýlit a bude to ten nejneuvěřitelnější průlom v AI. Podle mého názoru zvířata nejsou vůbec příkladem toho - jsou evolucí obdařena tunou inteligence a učení, které dělají, je celkově zcela minimální (příklad: Zebra při narození). Nasadíme si inženýrské klobouky a nebudeme znovu dělat evoluci. Ale s LLM jsme narazili na alternativní přístup k "předbalení" tuny inteligence do neuronové sítě - ne evolucí, ale předpovídáním dalšího tokenu přes internet. Tento přístup vede k jinému druhu entity v oblasti inteligence. Na rozdíl od zvířat, spíše jako duchové nebo duchové. Ale můžeme (a měli bychom) je časem udělat více zvířecí a v některých ohledech je to to, o čem je spousta hraniční práce.
Na RL. RL jsem již několikrát kritizoval, např. . Za prvé, "vysává dohled brčkem", takže si myslím, že signál/flop je velmi špatný. RL je také velmi hlučný, protože dokončení může obsahovat spoustu chyb, které by vás mohly povzbudit (pokud náhodou narazíte na správnou odpověď), a naopak brilantní tokeny vhledu, které by vás mohly odradit (pokud to později pokazíte). Procesní supervize a LLM soudci mají také problémy. Myslím, že uvidíme alternativní paradigmata učení. Jsem dlouhá "agentická interakce", ale krátká "zpětnovazební učení". V poslední době jsem viděl řadu článků, které podle mého názoru štěkají na správný strom v duchu toho, co jsem nazval "systémové promptní učení", ale myslím, že je také mezera mezi nápady na arxiv a skutečnou, v měřítku implementací v hraniční laboratoři LLM, která funguje obecným způsobem. Celkově jsem docela optimistický, že v této dimenzi zbývající práce uvidíme poměrně brzy dobrý pokrok a např. dokonce bych řekl, že paměť ChatGPT a tak dále jsou primordiálně nasazené příklady nových paradigmat učení.
Kognitivní jádro. Můj dřívější příspěvek o "kognitivním jádru": , myšlenka ořezávání LLM, ztěžování zapamatování nebo aktivní odstraňování paměti, aby se zlepšili v generalizaci. Jinak se příliš opírají o to, co si zapamatovali. Lidé si nemohou tak snadno zapamatovat, což nyní v kontrastu s tím vypadá spíše jako funkce než jako chyba. Možná je neschopnost zapamatovat si jakousi regularizací. Také můj příspěvek z doby před chvílí o tom, jak je trend ve velikosti modelů "zpětný" a proč "modely se musí nejprve zvětšit, než se mohou zmenšit"
Cestování časem do Yann LeCun 1989. Toto je příspěvek, který jsem udělal velmi uspěchanou / špatnou práci popsat na podu: . V podstatě - o kolik byste mohli zlepšit výsledky Yanna LeCuna se znalostí 33 let algoritmického pokroku? Jak omezené byly výsledky jednotlivých algoritmů, dat a výpočtů? Případová studie tam.
nanochat. Moje komplexní implementace školicího/inferenčního kanálu ChatGPT (to nejnutnější)
Na agentech LLM. Moje kritika průmyslu je spíše v přestřelování nástrojů ve srovnání se současnými schopnostmi. Žiji v tom, co považuji za mezilehlý svět, kde chci spolupracovat s LLM a kde se shodují naše klady a zápory. Průmysl žije v budoucnosti, kde plně autonomní entity paralelně spolupracují na psaní veškerého kódu a lidé jsou k ničemu. Například nechci agenta, který se vypne na 20 minut a vrátí se s 1 000 řádky kódu. Rozhodně se necítím připravený na to, abych dohlížel na tým 10 z nich. Rád bych postupoval po částech, které si mohu nechat v hlavě, kde LLM vysvětluje kód, který píše. Chtěl bych, aby mi dokázal, že to, co udělal, je správné, chci, aby si vytáhl dokumentaci k API a ukázal mi, že věci používal správně. Chci, aby si dělal méně domněnek a ptal se/spolupracoval se mnou, když si něčím není jistý. Chci se učit za pochodu a stát se lepším programátorem, ne jen dostávat hory kódu, o kterém mi říkají, že funguje. Jen si myslím, že nástroje by měly být realističtější vzhledem k jejich schopnostem a tomu, jak zapadají do dnešního odvětví, a obávám se, že pokud se to neudělá dobře, mohli bychom skončit s horami odpadu, které se hromadí v softwaru, a nárůstem zranitelností, narušení bezpečnosti atd.
Automatizace práce. Jak se daří radiologům a jaké práce jsou více náchylné k automatizaci a proč.
Fyzika. Děti by se měly fyziku učit v raném vzdělávání ne proto, že se z ní budou učit, ale proto, že je to předmět, který nejlépe nastartuje mozek. Fyzici jsou intelektuální embryonální kmenové buňky, mám delší příspěvek, který byl napůl napsán v mých návrzích pro ~ rok, který doufám, že brzy dokončím.
Ještě jednou díky Dwarkeshi za pozvání!

Dwarkesh Patel18. 10. 01:16
Rozhovor s @karpathy
0:00:00 – AGI je ještě deset let daleko
0:30:33 – LLM kognitivní deficity
0:40:53 – RL je hrozný
0:50:26 – Jak se lidé učí?
1:07:13 – AGI se prolne do 2% růstu HDP
1:18:24 – ASI
1:33:38 – Evoluce inteligence a kultury
1:43:43 – Proč samořízení trvalo tak dlouho
1:57:08 – Budoucnost vzdělávání
Podívejte se na Dwarkesh Podcast na YouTube, Apple Podcasts, Spotify atd. Užijte si to!
3,31M
Televize v 90. letech: zapnete ji, díváte se.
TV 2025:
- zapněte, počkejte, až se načte
- vyskakovací okno: TV chce aktualizovat, 1,5 GB. Ne.
- Přejděte do strany, najděte aplikaci Prime Video atd
- vyskakovací okno: nyní chce aplikace aktualizovat, 500 MB. Ne!!
- Spuštění aplikace... Načítání aplikace...
- Vyberte obrazovku Účet
- 🫠
1,6M
Top
Hodnocení
Oblíbené