Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
J'expérimente avec l'entraînement d'un petit modèle de diffusion de texte au niveau des caractères avec 11 millions de paramètres !
C'est un travail en cours, mais le code est actuellement une implémentation de nanochat gpt fortement modifiée (pour passer du décodage autoregressif à la diffusion) et entraînée sur le jeu de données Tiny Shakespeare.
L'implémentation naïve d'un calendrier de masquage consiste à avoir une probabilité de masquage uniforme pour chaque jeton à chaque itération. Les approches plus récentes masquent par blocs de gauche à droite, ce qui améliore la qualité de sortie et permet une certaine réutilisation du KVCache.
J'ai réalisé que vous pouvez en fait appliquer le masquage de n'importe quelle manière arbitraire pendant le processus de génération. Ci-dessous, vous pouvez voir que j'ai appliqué le masquage en fonction des règles du Jeu de la Vie de Conway.
Je me demande s'il existe des stratégies de masquage inhabituelles comme celle-ci qui apportent des avantages. Quoi qu'il en soit, c'est une manière très intéressante et fascinante de corrompre et de déformer le texte.
Meilleurs
Classement
Favoris

