Wpływ inicjalizacji na dynamikę finetuningu LoRA czysta dawka naukowego odkrycia i jeden z lepszych artykułów, jakie czytałem w tym roku. (i tak, jestem praktycznie uzależniony od LoRA) W Low-Rank Adaptation zazwyczaj trenujemy adaptery A i B, które są dodawane do wag jako W + BA. Musimy zainicjować albo B, albo A na zero, aby zachować zachowanie sieci na początku TLDR lepiej ustawić B na zera. uczy się szybciej, pozwala na użycie większych współczynników uczenia. dość zaskakujące dla mnie