Virkningen av initialisering på LoRA-finjusteringsdynamikken En ren bit av vitenskapelig utforskning og en av de bedre artiklene jeg har lest hele året. (og ja, jeg er ganske mye LoRA-pillet) i Low-Rank Adaptation trener vi vanligvis adaptere A og B som legges til vekter som W + BA. vi må initialisere enten B eller A til null for å bevare nettverksoppførselen ved init TLDR det er bedre å sette B til nuller. lærer raskere, lar deg bruke større læringshastigheter. ganske overraskende for meg