Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Vandaag publiceer ik mijn eerste blogpost: Tokenisatie vanuit de eerste principes. Ik heb een Byte-level BPE-tokenizer gebouwd met Rust pre-tokenisatie en een encodesnelheid bereikt die vergelijkbaar is met die van huggingface-tokenizers. Ik laat ideeën en algoritmen zien, inclusief nuances van implementatie, zoals het gebruik van een LRU-cache en een dubbel gekoppelde lijst.
Met die basis ga ik verder. De meeste tokenizers splitsen gewoon op regex, waarbij ze samenvoegingen binnen woorden behouden, maar wij kunnen het beter doen. Ik heb 20% efficiënter monstertraining voor LLM bereikt met SuperBPE. Ik demonstreer hoe je SuperBPE laat implementeren laat in de training, wat cross-word samenvoegingen mogelijk maakt met hetzelfde verlies per byte tijdens de training. Grafieken + code + link in de reactie.

Boven
Positie
Favorieten

