Postagem agradável e curta que ilustra quão simples pode ser a difusão de texto (discreta). A difusão (ou seja, denoising paralelo e iterado, top) é o paradigma gerativo predominante em imagem/vídeo, mas a autoregressão (ou seja, ir da esquerda para a direita, para baixo) é o paradigma dominante em texto. Para áudio, já vi um pouco de ambos. Muitos artigos sobre difusão parecem um pouco densos, mas se você retirar o formalismo matemático, acaba com algoritmos de base simples, por exemplo, algo muito mais próximo do flow matching em contínuo, ou algo assim em discreto. É o seu transformer vanilla, mas com atenção bidirecional, onde você reamostra e remarca iterativamente todos os tokens na sua "tela de tokens" com base em um cronograma de ruído até obter a amostra final na última etapa. (A atenção bidirecional é muito mais poderosa, e você obtém modelos de linguagem autoregressivos muito mais fortes se treinar com ela, infelizmente isso torna o treinamento muito mais caro porque agora você não pode paralelizar ao longo da dimensão da sequência). Assim, a autoregressão está fazendo um `.append(token)` na tela de tokens enquanto apenas atende para trás, enquanto a difusão está atualizando toda a tela de tokens com um `.setitem(idx, token)` enquanto atende bidirecionalmente. O pensamento humano, de forma ingênua, parece um pouco mais com a autoregressão, mas é difícil dizer que não há mais componentes semelhantes à difusão em algum espaço latente de pensamento. Parece bastante possível que você possa interpolar ainda mais entre eles ou generalizá-los ainda mais. E é um componente da pilha LLM que ainda parece um pouco fungível. Agora devo resistir à vontade de me desviar para treinar o nanochat com difusão.