LoRA の微調整ダイナミクスに対する初期化の影響 クリーンな科学的探求であり、私が一年中読んだ中で最も優れた論文の 1 つです。 (そして、はい、私はほとんどLoRAピルです) 低ランク適応では、通常、W + BAとして重みに追加されるアダプターAとBをトレーニングします。init でのネットワーク動作を維持するには、B または A のいずれかをゼロに初期化する必要があります TLDR B をゼロに設定することをお勧めします。学習速度が速くなり、学習率が高くなります。私にはかなり驚くべきこと