¡Jugando con el entrenamiento de un pequeño modelo de difusión de texto a nivel de caracteres de 11M de parámetros! Es un trabajo en progreso, pero el código es actualmente una implementación de nanochat gpt muy modificada (para cambiar de decodificación autorregresiva a difusión) y entrenada en el conjunto de datos de Tiny Shakespeare. La implementación ingenua de un programa de enmascaramiento tiene una probabilidad de enmascaramiento uniforme para cada token en cada iteración. Los enfoques más nuevos enmascaran en bloques de izquierda a derecha, lo que mejora la calidad de salida y permite cierta reutilización de KVCache. Me di cuenta de que en realidad puedes aplicar el enmascaramiento de cualquier manera arbitraria durante el proceso de generación. A continuación, puedes ver que apliqué el enmascaramiento basado en las reglas del Juego de la Vida de Conway. Me pregunto si hay alguna estrategia de enmascaramiento inusual como esta que proporcione beneficios. De todos modos, esta es una forma muy interesante y fascinante de corromper y deformar texto.