Impactul inițializării asupra dinamicii de reglare fină LoRA Un pic de explorare științifică curată și una dintre cele mai bune lucrări pe care le-am citit tot anul. (și da, sunt destul de LoRA-pilled) în adaptarea la rang scăzut, antrenăm de obicei adaptoarele A și B care sunt adăugate la greutăți ca W + BA. trebuie să inițializăm fie B, fie A la zero pentru a păstra comportamentul rețelei la init TLDR este mai bine să setați B la zero. învață mai repede, vă permite să utilizați rate de învățare mai mari. destul de surprinzător pentru mine