El impacto de la inicialización en la dinámica de ajuste fino de LoRA una exploración científica limpia y uno de los mejores artículos que he leído en todo el año. (y sí, estoy bastante metido en LoRA) en la Adaptación de Bajo Rango, normalmente entrenamos adaptadores A y B que se añaden a los pesos como W + BA. necesitamos inicializar B o A a cero para preservar el comportamiento de la red en la inicialización Resumen: es mejor establecer B en ceros. aprende más rápido, te permite usar tasas de aprendizaje más grandes. bastante sorprendente para mí