L'impatto dell'inizializzazione sulle dinamiche di finetuning di LoRA un'ottima esplorazione scientifica e uno dei migliori articoli che ho letto quest'anno. (e sì, sono praticamente LoRA-pilled) nella Low-Rank Adaptation, di solito alleniamo gli adattatori A e B che vengono aggiunti ai pesi come W + BA. dobbiamo inizializzare B o A a zero per preservare il comportamento della rete all'inizio TLDR è meglio impostare B a zero. impara più velocemente, ti consente di utilizzare tassi di apprendimento più elevati. piuttosto sorprendente per me