一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

昨晚我教 nanochat d32 如何計算草莓中的 'r'（或類似變體）。我認為這是一個很好的/有趣的例子，展示如何為 nanochat 增加功能，我在這裡寫了一個完整的指南：這是通過一個新的合成任務 `SpellingBee` 完成的，該任務生成用戶要求這類問題的示例，以及助手的理想解決方案。我們然後進行中期訓練/SFT 微調，以賦予 LLM 這種能力，或進一步通過 RL 訓練使其更穩健。特別是在較小的模型大小上，有許多細節需要正確處理，指南逐步介紹了這些細節。簡要概述如下： - 你必須確保用戶提示/查詢的多樣性 - 對於像 nanochat 這樣的小模型，特別是，你必須非常小心標記化的細節，以使任務對 LLM 來說變得簡單。特別是，你必須小心空格，然後你必須將推理計算分散到許多部分解的標記中：首先我們將單詞標準化為引號，然後我們拼寫出來（以打破標記），然後我們迭代並保持明確的計數器，等等。 - 我鼓勵模型以兩種不同的方式解決問題：一種是手動方式（心算），另一種是通過 nanochat 可以訪問的 Python 解釋器的工具使用。這有點像 "煙霧和鏡子"，因為目前每個解決方案都是 "乾淨" 的，沒有錯誤。可以調整任務以模擬錯誤並通過示例演示恢復，或者運行 RL。最有可能的是，兩者的組合效果最佳，前者作為 RL 的先驗，並提供可供其使用的內容。如果 nanochat 是一個更大的模型，你會期望或希望這種能力在某個時候更容易 "顯現" 出來。但因為 nanochat d32 的 "大腦" 大小約為 ~蜜蜂，如果我們想讓它計算草莓中的 r，我們必須通過在數據中過度表示它來實現，以鼓勵模型更早地學習它。但這是有效的！:)