L'impact de l'initialisation sur la dynamique de finetuning de LoRA une exploration scientifique propre et l'un des meilleurs articles que j'ai lus cette année. (et oui, je suis pratiquement accro à LoRA) Dans l'adaptation à faible rang, nous entraînons généralement des adaptateurs A et B qui sont ajoutés aux poids sous la forme W + BA. Nous devons initialiser soit B soit A à zéro pour préserver le comportement du réseau à l'initialisation. En résumé, il est préférable de définir B à zéro. Cela apprend plus vite, vous permet d'utiliser des taux d'apprentissage plus élevés. Cela m'a assez surpris.