Effekten av initiering på LoRA-finjusteringsdynamiken En ren bit av vetenskaplig utforskning och en av de bättre artiklarna jag har läst på hela året. (och ja, jag är ganska mycket LoRA-piller) i Low-Rank Adaptation tränar vi vanligtvis adaptrar A och B som läggs till vikter som W + BA. vi måste initiera antingen B eller A till noll för att bevara nätverksbeteendet vid init TLDR är det bättre att ställa in B till nollor. lär sig snabbare, gör att du kan använda högre inlärningshastigheter. ganska förvånande för mig