O Impacto da Inicialização na Dinâmica de Finetuning do LoRA uma exploração científica limpa e um dos melhores artigos que li este ano. (e sim, estou praticamente viciado em LoRA) na Adaptação de Baixa Classificação, normalmente treinamos adaptadores A e B que são adicionados aos pesos como W + BA. precisamos inicializar B ou A em zero para preservar o comportamento da rede na inicialização Resumindo, é melhor definir B como zero. aprende mais rápido, permite usar taxas de aprendizado maiores. bastante surpreendente para mim