Die Auswirkungen der Initialisierung auf die Dynamik des LoRA-Finetunings eine saubere wissenschaftliche Erkundung und eines der besseren Papiere, die ich dieses Jahr gelesen habe. (und ja, ich bin ziemlich LoRA-verseucht) Bei der Low-Rank-Adaptation trainieren wir typischerweise die Adapter A und B, die zu den Gewichten als W + BA hinzugefügt werden. Wir müssen entweder B oder A auf null initialisieren, um das Netzwerkverhalten bei der Initialisierung zu bewahren. TLDR: Es ist besser, B auf null zu setzen. Lernt schneller, ermöglicht größere Lernraten. Für mich ziemlich überraschend.