¡Jugando con el entrenamiento de un pequeño modelo de difusión de texto a nivel de carácter de 11 millones de parámetros! Es un WIP, pero el código es actualmente una implementación gpt de nanochat muy modificada (para cambiar de decodificación autorregresiva a difusión) y entrenado en el conjunto de datos de Tiny Shakespeare. La implementación ingenua de un programa de enmascaramiento es tener una probabilidad de enmascaramiento uniforme para cada token para cada iteración. Los enfoques más nuevos enmascaran en fragmentos de bloque de izquierda a derecha, lo que mejora la calidad de salida y permite la reutilización de KVCache. Me di cuenta de que en realidad puedes aplicar el enmascaramiento de cualquier manera arbitraria durante el proceso de generación. A continuación puedes ver que apliqué el enmascaramiento basado en las reglas del Juego de la Vida de Conway. Me pregunto si existen estrategias de enmascaramiento inusuales como esta que brinden beneficios. De todos modos, esta es una forma muy interesante y fascinante de corromper y deformar el texto.