熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
昨晚我教 nanochat d32 如何計算草莓中的 'r'(或類似變體)。我認為這是一個很好的/有趣的例子,展示如何為 nanochat 增加功能,我在這裡寫了一個完整的指南:
這是通過一個新的合成任務 `SpellingBee` 完成的,該任務生成用戶要求這類問題的示例,以及助手的理想解決方案。我們然後進行中期訓練/SFT 微調,以賦予 LLM 這種能力,或進一步通過 RL 訓練使其更穩健。特別是在較小的模型大小上,有許多細節需要正確處理,指南逐步介紹了這些細節。簡要概述如下:
- 你必須確保用戶提示/查詢的多樣性
- 對於像 nanochat 這樣的小模型,特別是,你必須非常小心標記化的細節,以使任務對 LLM 來說變得簡單。特別是,你必須小心空格,然後你必須將推理計算分散到許多部分解的標記中:首先我們將單詞標準化為引號,然後我們拼寫出來(以打破標記),然後我們迭代並保持明確的計數器,等等。
- 我鼓勵模型以兩種不同的方式解決問題:一種是手動方式(心算),另一種是通過 nanochat 可以訪問的 Python 解釋器的工具使用。這有點像 "煙霧和鏡子",因為目前每個解決方案都是 "乾淨" 的,沒有錯誤。可以調整任務以模擬錯誤並通過示例演示恢復,或者運行 RL。最有可能的是,兩者的組合效果最佳,前者作為 RL 的先驗,並提供可供其使用的內容。
如果 nanochat 是一個更大的模型,你會期望或希望這種能力在某個時候更容易 "顯現" 出來。但因為 nanochat d32 的 "大腦" 大小約為 ~蜜蜂,如果我們想讓它計算草莓中的 r,我們必須通過在數據中過度表示它來實現,以鼓勵模型更早地學習它。但這是有效的!:)

熱門
排行
收藏

