DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

Ich experimentiere mit dem Training eines kleinen 11M-Parameter-Zeichenebenen-Textdiffusionsmodells! Es ist ein WIP, aber der Code ist derzeit eine stark modifizierte Nanochat-GPT-Implementierung (um von autoregressivem Decoding zu Diffusion zu wechseln) und wurde mit dem Tiny Shakespeare-Datensatz trainiert. Die naive Implementierung eines Maskierungsplans hat eine uniforme Maskierungswahrscheinlichkeit für jedes Token in jeder Iteration. Neuere Ansätze maskieren in Blockstücken von links nach rechts, was die Ausgabequalität verbessert und eine gewisse Wiederverwendung des KVCache ermöglicht. Ich habe festgestellt, dass man Maskierung tatsächlich auf jede beliebige Weise während des Generierungsprozesses anwenden kann. Unten sehen Sie, dass ich die Maskierung basierend auf den Regeln von Conways Spiel des Lebens angewendet habe. Ich frage mich, ob es ungewöhnliche Maskierungsstrategien wie diese gibt, die Vorteile bieten. Unabhängig davon ist dies eine sehr interessante und faszinierende Möglichkeit, Text zu korrumpieren und zu deformieren.

Top

Ranking

Favoriten