熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁

Andrej Karpathy
建築@EurekaLabsAI。曾任 AI 總監 @ 特斯拉,創始團隊 @ OpenAI,CS231n/PhD @ 史丹佛大學。我喜歡訓練大型深層神經網路。
我相當喜歡新的 DeepSeek-OCR 論文。這是一個不錯的 OCR 模型(可能比 dots 差一些),是的,數據收集等等,但無論如何這都不重要。
對我來說,更有趣的部分(尤其是作為一名電腦視覺專家,暫時偽裝成自然語言專家)是像素是否比文本更適合作為 LLM 的輸入。文本標記是否浪費且糟糕,作為輸入。
也許更合理的是,所有 LLM 的輸入應該永遠只有圖像。即使你碰巧有純文本輸入,也許你會更喜歡將其渲染後再輸入:
- 更多的信息壓縮(見論文)=> 更短的上下文窗口,更高的效率
- 顯著更多的一般信息流 => 不僅僅是文本,例如粗體文本、彩色文本、任意圖像。
- 輸入現在可以輕鬆地以雙向注意力處理,並作為默認,而不是自回歸注意力 - 強大得多。
- 刪除標記器(在輸入時)!!我已經抱怨過我有多不喜歡標記器。標記器很醜,分開,並不是端到端的階段。它 "導入" 了所有 Unicode、字節編碼的醜陋,繼承了很多歷史包袱,安全/越獄風險(例如,續字節)。它使兩個在眼睛上看起來相同的字符在網絡內部看起來像兩個完全不同的標記。一個微笑的表情符號看起來像一個奇怪的標記,而不是一個... 實際的微笑臉,像素和所有的轉移學習都隨之而來。標記器必須去。
OCR 只是許多有用的視覺 -> 文本任務之一。而文本 -> 文本任務可以被轉化為視覺 -> 文本任務。反之則不然。
所以用戶消息可能是圖像,但解碼器(助手的回應)仍然是文本。如何現實地輸出像素就不那麼明顯了... 或者你是否想這樣做。
現在我還得抵抗想要側重於僅圖像輸入版本的 nanochat 的衝動...

vLLM10月20日 19:31
🚀 DeepSeek-OCR — 來自 @deepseek_ai 的新一代 OCR,探索 LLM 的光學上下文壓縮,運行速度驚人,vLLM 上的速度達到 ⚡ (~2500 tokens/s 在 A100-40G) — 由 vllm==0.8.5 提供支持,實現日零模型支持。
🧠 在保持 97% OCR 準確率的情況下,壓縮視覺上下文達到 20 倍,且在 <10 倍的情況下。
📄 在 OmniDocBench 上使用更少的視覺 tokens 超越 GOT-OCR2.0 和 MinerU2.0。
🤝 vLLM 團隊正在與 DeepSeek 合作,將官方 DeepSeek-OCR 支持帶入下一個 vLLM 版本 — 使多模態推理變得更快且更易於擴展。
🔗
#vLLM #DeepSeek #OCR #LLM #VisionAI #DeepLearning



2.02M
上週能夠參加Dwarkesh的節目我很高興,我覺得問題和對話都非常好。
我剛剛也重看了一遍這集播客。首先,是的,我知道,我很抱歉我說話太快了 :)。這對我來說是一種損失,因為有時我的說話思路超過了我的思考思路,所以我認為我因為這個原因搞砸了一些解釋,有時我也很緊張,擔心我會偏離主題或深入到一些相對無關的事情。無論如何,幾個筆記/指點:
AGI時間表。關於AGI時間表的評論似乎是早期反應中最受關注的部分。這個「代理的十年」是對之前推文的引用。基本上,我的AI時間表比你在你附近的SF AI派對或推特時間線上看到的要悲觀5-10倍,但對於一波波的AI否認者和懷疑者來說,仍然相當樂觀。表面上的矛盾並不存在:在我看來,我們同時1) 在最近幾年看到LLM的巨大進展,而2) 仍然有很多工作要做(基礎工作、整合工作、將傳感器和執行器連接到物理世界的工作、社會工作、安全和保安工作(越獄、毒化等)),還有研究需要完成,才能擁有一個你會希望雇用的實體,來替代世界上某個隨機工作的人。我認為總體來說,10年應該是AGI非常樂觀的時間表,這只是與當前的炒作形成對比,才讓人感覺不是這樣。
動物與鬼魂。關於Sutton播客的早期寫作。我懷疑是否有一個簡單的算法可以讓它在世界上自由學習一切。如果有人建立了這樣的東西,我會錯誤,這將是AI領域最令人難以置信的突破。在我看來,動物根本不是這個的例子——它們是由進化預先包裝了大量智慧,並且它們的學習總體上是相當有限的(例如:出生時的斑馬)。戴上我們的工程帽,我們不會重新做進化。但通過LLM,我們偶然發現了一種「預包裝」大量智慧的方法,這不是通過進化,而是通過預測互聯網上的下一個標記。這種方法導致了智能領域中不同類型的實體。與動物不同,更像是鬼魂或靈魂。但我們可以(也應該)隨著時間的推移使它們更像動物,在某些方面,這就是許多前沿工作的目的。
關於RL。我已經批評過RL幾次,例如。首先,你是在「通過吸管吸取監督」,所以我認為信號/每次運算的效果非常差。RL也非常嘈雜,因為一個完成可能有很多錯誤可能會被鼓勵(如果你恰好碰到正確的答案),相反,可能會有出色的見解標記被抑制(如果你恰好後來搞砸了)。過程監督和LLM評判也有問題。我認為我們會看到替代的學習範式。我對「代理互動」持樂觀態度,但對「強化學習」持悲觀態度。我最近看到一些論文出現,根據我所說的「系統提示學習」,我認為這些論文是在正確的方向上,但我認為在arxiv上的想法與在LLM前沿實驗室的實際大規模實施之間仍然存在差距。我總體上對這一剩餘工作的進展感到相當樂觀,例如,我甚至會說ChatGPT的記憶等是新學習範式的原始部署示例。
認知核心。我之前關於「認知核心」的帖子:,這個想法是剝離LLM,使它們更難記憶,或主動剝除它們的記憶,以使它們在概括方面更好。否則它們會過於依賴它們所記憶的東西。人類不能這麼容易地記憶,這現在看起來更像是一種特徵,而不是一個缺陷。也許無法記憶是一種正則化。此外,我之前的帖子提到模型大小的趨勢是「向後的」,以及為什麼「模型必須先變大才能變小」
時光旅行到Yann LeCun 1989。這是我在播客中描述得非常匆忙/糟糕的帖子:。基本上——如果擁有33年的算法進步的知識,你能多大程度上改善Yann LeCun的結果?每個算法、數據和計算對結果的限制有多大?那裡的案例研究。
nanochat。我對ChatGPT訓練/推理管道的端到端實現(基本要素)
關於LLM代理。對於這個行業的批評更多的是在於超越了目前能力的工具。我生活在我所認為的中間世界,我想與LLM合作,而我們的優缺點是匹配的。這個行業生活在一個未來,完全自主的實體並行合作編寫所有代碼,而人類則變得無用。例如,我不想要一個代理,去20分鐘後回來帶著1000行代碼。我當然不覺得自己準備好監督10個這樣的團隊。我希望能夠分成我能夠記住的部分,讓LLM解釋它正在編寫的代碼。我希望它能向我證明它所做的事情是正確的,我希望它能提取API文檔並向我展示它正確使用了東西。我希望它能做出更少的假設,並在不確定的時候詢問/與我合作。我希望在這個過程中學習,並成為更好的程序員,而不僅僅是被提供大量我被告知有效的代碼。我只是認為這些工具應該更現實地反映它們的能力以及它們如何適應當前的行業,我擔心如果這樣做不好,我們可能會在軟件中積累大量的垃圾,並增加漏洞、安全漏洞等。
工作自動化。放射科醫生做得很好,哪些工作更容易受到自動化的影響以及原因。
物理學。孩子們應該在早期教育中學習物理,不是因為他們將來會從事物理,而是因為這是最能啟動大腦的學科。物理學家是智力的胚胎幹細胞。我有一篇長的帖子已經在我的草稿中寫了一年多,希望能儘快完成。
再次感謝Dwarkesh邀請我!

Dwarkesh Patel10月18日 01:16
@karpathy 的訪談
0:00:00 – AGI 還需要十年
0:30:33 – LLM 認知缺陷
0:40:53 – RL 很糟糕
0:50:26 – 人類是如何學習的?
1:07:13 – AGI 將融入 2% 的 GDP 增長
1:18:24 – ASI
1:33:38 – 智力與文化的演變
1:43:43 - 為什麼自駕車花了這麼長時間
1:57:08 - 教育的未來
在 YouTube、Apple Podcasts、Spotify 等平台上查找 Dwarkesh Podcast,享受吧!
3.36M
熱門
排行
收藏