De impact van initialisatie op de LoRA-finetuningdynamiek een schone bit van wetenschappelijk onderzoek en een van de betere papers die ik dit jaar heb gelezen. (en ja, ik ben behoorlijk LoRA-pilled) Bij Low-Rank Adaptation trainen we doorgaans adapters A en B die aan de gewichten worden toegevoegd als W + BA. We moeten ofwel B of A op nul initialiseren om het netwerkgedrag bij de initiële waarde te behouden. TLDR: het is beter om B op nul te zetten. leert sneller, laat je grotere leersnelheden gebruiken. behoorlijk verrassend voor mij.