O impacto da inicialização na dinâmica de ajuste fino do LoRA Um pouco de exploração científica e um dos melhores artigos que li durante todo o ano. (e sim, eu sou praticamente LoRA-pilled) na Adaptação de Baixo Nível, normalmente treinamos os adaptadores A e B que são adicionados aos pesos como W + BA. precisamos inicializar B ou A para zero para preservar o comportamento da rede no init TLDR, é melhor definir B como zeros. aprende mais rápido, permite que você use taxas de aprendizado maiores. bastante surpreendente para mim