熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁

Ahmad
人工智慧研究員和軟體工程師,肩負著建立 DGX B200 GPU 叢集的使命
逐步進行 LLM 工程項目
每個項目 = 一種通過艱難(即真實)方式學習的概念
詞元化與嵌入
> 構建字節對編碼器 + 訓練自己的子詞詞彙
> 編寫一個“詞元可視化器”將單詞/塊映射到 ID
> 一熱編碼與學習嵌入:繪製餘弦距離
位置嵌入
> 經典的正弦波與學習的與 RoPE 與 ALiBi:演示所有四種
> 動畫展示一個玩具序列在 3D 中被“位置編碼”
> 消除位置——觀察注意力崩潰
自注意力與多頭注意力
> 手動連接一個詞元的點積注意力
> 擴展到多頭,繪製每頭權重熱圖
> 屏蔽未來詞元,驗證因果屬性
變換器、QKV 和堆疊
> 將注意力實現與層歸一化和殘差堆疊 → 單塊變換器
> 概括:在玩具數據上進行 n 塊“迷你變換器”
> 解剖 Q、K、V:交換它們,打破它們,看看什麼會爆炸
採樣參數:溫度/前 k/前 p
> 編寫一個採樣器儀表板——交互式調節溫度/k/p 並採樣輸出
> 繪製熵與輸出多樣性之間的關係
> 清除 temp=0(argmax):觀察重複
KV 緩存(快速推理)
> 記錄並重用 KV 狀態;測量與無緩存的加速
> 為詞元流構建一個“緩存命中/未命中”可視化器
> 評估長序列與短序列的緩存內存成本
長上下文技巧:無限注意力 / 滑動窗口
> 實現滑動窗口注意力;測量長文檔的損失
> 基準“內存高效”(重新計算,閃存)變體
> 繪製困惑度與上下文長度的關係;找到上下文崩潰點
專家混合(MoE)
> 編寫一個 2 專家路由層;動態路由詞元
> 繪製數據集上的專家利用率直方圖
> 模擬稀疏/密集交換;測量 FLOP 節省
分組查詢注意力
> 將你的迷你變換器轉換為分組查詢佈局
> 測量與大型批次的普通多頭的速度
> 消除組數,繪製延遲
歸一化與激活
> 手動實現層歸一化、RMSNorm、SwiGLU、GELU
> 消除每個——訓練/測試損失會發生什麼?
> 繪製逐層激活分佈
預訓練目標
> 在玩具文本上訓練掩蔽 LM 與因果 LM 與前綴 LM
> 繪製損失曲線;比較哪個更快地學習“英語”
> 從每個生成樣本——注意奇特之處
微調與指令調優與 RLHF
> 在小型自定義數據集上進行微調
> 通過在任務前添加前綴進行指令調優(“總結:...”)
> RLHF:黑客獎勵模型,使用 PPO 進行 10 步,繪製獎勵
擴展法則與模型容量
> 訓練微型、小型、中型模型——繪製損失與大小的關係
> 基準牆鍾時間、VRAM、吞吐量
> 外推擴展曲線——你能“愚蠢”到什麼程度?
量化
> 編寫 PTQ 和 QAT;導出到 GGUF/AWQ;繪製準確度下降
推理/訓練堆棧:
> 將模型從 HuggingFace 移植到 Deepspeed、vLLM、ExLlama
> 評估所有三者的吞吐量、VRAM、延遲
合成數據
> 生成玩具數據,添加噪聲,去重,創建評估拆分
> 可視化模型在真實與合成數據上的學習曲線
每個項目 = 一個核心見解。構建。繪製。打破。重複。
> 不要在理論中停留太久
> 編碼,調試,消除,甚至給你的圖表加個 meme 哈哈
> 完成每個項目並發佈你學到的東西
你的未來自我會感謝你。
34.55K
學習如何理解大型語言模型(LLMs)的關鍵主題,只需不到2年的時間,如果你有計算機科學基礎
> 詞元化和嵌入
> 位置嵌入(絕對、繩索、阿里比)
> 自注意力和多頭注意力
> 變換器
> qkv
> 採樣參數:溫度,top-k,top-p
> kv緩存(以及為什麼推理速度快)
> 無限注意力和滑動窗口(長上下文技巧)
> 專家混合(moe路由層)
> 分組查詢注意力
> 歸一化和激活
> 預訓練目標(因果、掩蔽等)
> 微調與指令調優與強化學習從人類反饋(rlhf)
> 縮放法則和模型容量曲線
額外主題:
> 量化 - qat與ptq(ggufs,awq等)
> 訓練與推理堆棧(deepspeed,vllm等)
> 合成數據生成
5.39K
熱門
排行
收藏