逐步進行 LLM 工程項目 每個項目 = 一種通過艱難(即真實)方式學習的概念 詞元化與嵌入 > 構建字節對編碼器 + 訓練自己的子詞詞彙 > 編寫一個“詞元可視化器”將單詞/塊映射到 ID > 一熱編碼與學習嵌入:繪製餘弦距離 位置嵌入 > 經典的正弦波與學習的與 RoPE 與 ALiBi:演示所有四種 > 動畫展示一個玩具序列在 3D 中被“位置編碼” > 消除位置——觀察注意力崩潰 自注意力與多頭注意力 > 手動連接一個詞元的點積注意力 > 擴展到多頭,繪製每頭權重熱圖 > 屏蔽未來詞元,驗證因果屬性 變換器、QKV 和堆疊 > 將注意力實現與層歸一化和殘差堆疊 → 單塊變換器 > 概括:在玩具數據上進行 n 塊“迷你變換器” > 解剖 Q、K、V:交換它們,打破它們,看看什麼會爆炸 採樣參數:溫度/前 k/前 p ...