El impacto de la inicialización en la dinámica de ajuste fino de LoRA Un poco de exploración científica limpia y uno de los mejores artículos que he leído en todo el año. (y sí, estoy bastante pillado por LoRA) en la adaptación de rango bajo, normalmente entrenamos adaptadores A y B que se agregan a los pesos como W + BA. necesitamos inicializar B o A a cero para preservar el comportamiento de la red en init TLDR, es mejor establecer B en ceros. aprende más rápido, le permite usar mayores tasas de aprendizaje. bastante sorprendente para mí