Brincando com o treinamento de um minúsculo modelo de difusão de texto em nível de caractere de parâmetro 11M! É um WIP, mas o código é atualmente uma implementação nanochat gpt fortemente modificada (para mudar de decodificação autorregressiva para difusão) e treinado no conjunto de dados Tiny Shakespeare. A implementação ingênua de um cronograma de mascaramento é ter uma probabilidade de mascaramento uniforme para cada token para cada iteração. Abordagens mais recentes mascaram blocos da esquerda para a direita, o que melhora a qualidade da saída e permite alguma reutilização do KVCache. Percebi que você pode realmente aplicar o mascaramento de qualquer maneira arbitrária durante o processo de geração. Abaixo você pode ver que apliquei o mascaramento com base nas regras do Jogo da Vida de Conway. Eu me pergunto se existem estratégias de mascaramento incomuns como essa que oferecem benefícios. Independentemente disso, esta é uma maneira muito interessante e fascinante de corromper e deformar texto.