約翰·舒爾曼與思考機器:無悔的LoRA LoRA用修改過的版本W’=W+γBA替換原始模型中的每個權重矩陣W,其中B和A是矩陣,這兩者的參數總數遠少於W。 當以下情況發生時,LoRA的表現與完全微調相似: 1. LoRA應用於網絡的所有層,特別是包含大多數參數的MLP/MoE層。 2. LoRA不受容量限制,即可訓練的參數數量超過要學習的信息量,這可以根據數據集大小進行估算。 影響:大型(例如萬億參數)基礎模型可以以訓練新模型的少量成本進行定制。
Thinking Machines 發文: Gemini 關於邊界模型上 LoRA 的計算需求 - 仍然相當可觀,但使用的參數數量少於總模型大小的 1%(預訓練)。
9.64K