Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Tänään julkaisen ensimmäisen blogikirjoitukseni: Tokenisointi ensimmäisistä periaatteista. Rakensin Byte-tason BPE-tokenisaattorin Rust-esitokenisoinnilla ja saavutin koodausnopeuden, joka on samanlainen kuin huggingface-tokenisoijat. Näytän ideoita ja algoritmeja, mukaan lukien toteutuksen vivahteet, kuten LRU-välimuistin ja kaksinkertaisesti linkitetyn luettelon käyttö.
Tämän perustan avulla jatkan eteenpäin. Useimmat tokenisaattorit vain jaetaan säännöllisillä säännöllisillä lausekkeilla, pitäen yhdistämiset sanojen sisällä, voimme tehdä paremmin. Saavutin 20 % tehokkaamman LLM-koulutuksen SuperBPE:llä. Näytän, kuinka SuperBPE otetaan käyttöön koulutuksen loppuvaiheessa, mikä mahdollistaa ristisananylien yhdistämisen samalla tavukohtaisella häviöllä koulutuksen aikana. Kuvat + koodi + linkki vastauksessa.

Johtavat
Rankkaus
Suosikit

