Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
De impact van initialisatie op de LoRA-finetuningdynamiek
een schone bit van wetenschappelijk onderzoek en een van de betere papers die ik dit jaar heb gelezen. (en ja, ik ben behoorlijk LoRA-pilled)
Bij Low-Rank Adaptation trainen we doorgaans adapters A en B die aan de gewichten worden toegevoegd als W + BA. We moeten ofwel B of A op nul initialiseren om het netwerkgedrag bij de initiële waarde te behouden.
TLDR: het is beter om B op nul te zetten. leert sneller, laat je grotere leersnelheden gebruiken. behoorlijk verrassend voor mij.


Boven
Positie
Favorieten