DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

Vandaag publiceer ik mijn eerste blogpost: Tokenisatie vanuit de eerste principes. Ik heb een Byte-level BPE-tokenizer gebouwd met Rust pre-tokenisatie en een encodesnelheid bereikt die vergelijkbaar is met die van huggingface-tokenizers. Ik laat ideeën en algoritmen zien, inclusief nuances van implementatie, zoals het gebruik van een LRU-cache en een dubbel gekoppelde lijst. Met die basis ga ik verder. De meeste tokenizers splitsen gewoon op regex, waarbij ze samenvoegingen binnen woorden behouden, maar wij kunnen het beter doen. Ik heb 20% efficiënter monstertraining voor LLM bereikt met SuperBPE. Ik demonstreer hoe je SuperBPE laat implementeren laat in de training, wat cross-word samenvoegingen mogelijk maakt met hetzelfde verlies per byte tijdens de training. Grafieken + code + link in de reactie.

Boven

Positie

Favorieten