一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

Ahmad

人工智慧研究員和軟體工程師，肩負著建立 DGX B200 GPU 叢集的使命

逐步進行 LLM 工程項目每個項目 = 一種通過艱難（即真實）方式學習的概念詞元化與嵌入 > 構建字節對編碼器 + 訓練自己的子詞詞彙 > 編寫一個“詞元可視化器”將單詞/塊映射到 ID > 一熱編碼與學習嵌入：繪製餘弦距離位置嵌入 > 經典的正弦波與學習的與 RoPE 與 ALiBi：演示所有四種 > 動畫展示一個玩具序列在 3D 中被“位置編碼” > 消除位置——觀察注意力崩潰自注意力與多頭注意力 > 手動連接一個詞元的點積注意力 > 擴展到多頭，繪製每頭權重熱圖 > 屏蔽未來詞元，驗證因果屬性變換器、QKV 和堆疊 > 將注意力實現與層歸一化和殘差堆疊 → 單塊變換器 > 概括：在玩具數據上進行 n 塊“迷你變換器” > 解剖 Q、K、V：交換它們，打破它們，看看什麼會爆炸採樣參數：溫度/前 k/前 p > 編寫一個採樣器儀表板——交互式調節溫度/k/p 並採樣輸出 > 繪製熵與輸出多樣性之間的關係 > 清除 temp=0（argmax）：觀察重複 KV 緩存（快速推理） > 記錄並重用 KV 狀態；測量與無緩存的加速 > 為詞元流構建一個“緩存命中/未命中”可視化器 > 評估長序列與短序列的緩存內存成本長上下文技巧：無限注意力 / 滑動窗口 > 實現滑動窗口注意力；測量長文檔的損失 > 基準“內存高效”（重新計算，閃存）變體 > 繪製困惑度與上下文長度的關係；找到上下文崩潰點專家混合（MoE） > 編寫一個 2 專家路由層；動態路由詞元 > 繪製數據集上的專家利用率直方圖 > 模擬稀疏/密集交換；測量 FLOP 節省分組查詢注意力 > 將你的迷你變換器轉換為分組查詢佈局 > 測量與大型批次的普通多頭的速度 > 消除組數，繪製延遲歸一化與激活 > 手動實現層歸一化、RMSNorm、SwiGLU、GELU > 消除每個——訓練/測試損失會發生什麼？ > 繪製逐層激活分佈預訓練目標 > 在玩具文本上訓練掩蔽 LM 與因果 LM 與前綴 LM > 繪製損失曲線；比較哪個更快地學習“英語” > 從每個生成樣本——注意奇特之處微調與指令調優與 RLHF > 在小型自定義數據集上進行微調 > 通過在任務前添加前綴進行指令調優（“總結：...”） > RLHF：黑客獎勵模型，使用 PPO 進行 10 步，繪製獎勵擴展法則與模型容量 > 訓練微型、小型、中型模型——繪製損失與大小的關係 > 基準牆鍾時間、VRAM、吞吐量 > 外推擴展曲線——你能“愚蠢”到什麼程度？量化 > 編寫 PTQ 和 QAT；導出到 GGUF/AWQ；繪製準確度下降推理/訓練堆棧： > 將模型從 HuggingFace 移植到 Deepspeed、vLLM、ExLlama > 評估所有三者的吞吐量、VRAM、延遲合成數據 > 生成玩具數據，添加噪聲，去重，創建評估拆分 > 可視化模型在真實與合成數據上的學習曲線每個項目 = 一個核心見解。構建。繪製。打破。重複。 > 不要在理論中停留太久 > 編碼，調試，消除，甚至給你的圖表加個 meme 哈哈 > 完成每個項目並發佈你學到的東西你的未來自我會感謝你。