Джон Шульман и Thinking Machines: LoRA без сожалений LoRA заменяет каждую матрицу весов W из оригинальной модели на модифицированную версию W’=W+γBAW’=W+γBA, где B и A — это матрицы, которые вместе имеют значительно меньше параметров, чем W. LoRA работает аналогично полному тонкому обучению, когда: 1. LoRA применяется ко всем слоям сети, особенно к слоям MLP/MoE, в которых сосредоточено большинство параметров. 2. LoRA не ограничена по мощности, т.е. количество обучаемых параметров превышает объем информации, которую нужно усвоить, что можно оценить по размеру набора данных. Последствия: Большие (например, триллион параметров) базовые модели могут быть настроены за небольшую долю стоимости обучения новой модели.
Пост Thinking Machines: Gemini о вычислительных требованиях для LoRA на модели frontier - все еще значительные, но количество используемых параметров составляет менее 1% от общего размера модели (предобучение).
3,8K