Alustuksen vaikutus LoRA:n finetointidynamiikkaan Puhdasta tieteellistä tutkimusta ja yksi parhaista artikkeleista, joita olen lukenut koko vuonna. (ja kyllä, olen melko paljon LoRA-pillereitä) Low-Rank Adaptationissa koulutamme tyypillisesti sovittimia A ja B, jotka lisätään painoihin W + BA. meidän on alustettava joko B tai A nollaan, jotta verkon käyttäytyminen säilyy initissä TLDR on parempi asettaa B nolliin. oppii nopeammin, voit käyttää suurempia oppimisnopeuksia. aika yllättävää minusta