Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Giocando con l'addestramento di un piccolo modello di diffusione testuale a livello di carattere con 11M di parametri!
È un lavoro in corso, ma il codice è attualmente un'implementazione di nanochat gpt pesantemente modificata (per passare dalla decodifica autoregressiva alla diffusione) e addestrata sul dataset di Tiny Shakespeare.
L'implementazione naif di un programma di mascheramento prevede una probabilità di mascheramento uniforme per ogni token in ogni iterazione. Approcci più recenti mascherano in blocchi da sinistra a destra, il che migliora la qualità dell'output e consente un certo riutilizzo del KVCache.
Ho realizzato che puoi effettivamente applicare il mascheramento in qualsiasi modo arbitrario durante il processo di generazione. Qui sotto puoi vedere che ho applicato il mascheramento in base alle regole del Gioco della Vita di Conway.
Mi chiedo se ci siano strategie di mascheramento insolite come questa che offrano vantaggi. In ogni caso, questo è un modo molto interessante e ipnotizzante per corrompere e deformare il testo.
Principali
Ranking
Preferiti

