Вплив ініціалізації на динаміку тонкого налаштування LoRA Чистий шматочок наукового дослідження та одна з найкращих статей, які я читав за весь рік. (і так, я в значній мірі LoRA-pilled) У Low-Rank Adaptation ми зазвичай тренуємо адаптери A і B, які додаються до ваг як W + BA. нам потрібно ініціалізувати B або A до нуля, щоб зберегти поведінку мережі під час ініціалізації TLDR краще встановити B на нулі. Навчається швидше, дозволяє використовувати більші темпи навчання. Для мене це дуже дивно