Postagem curta e agradável ilustrando como a difusão de texto (discreta) pode ser simples. A difusão (ou seja, redução de ruído paralela e iterada, superior) é o paradigma generativo generalizado na imagem / vídeo, mas a autorregressão (ou seja, ir da esquerda para a direita inferior) é o paradigma dominante no texto. Para áudio, vi um pouco de ambos. Muitos artigos de difusão parecem um pouco densos, mas se você retirar o formalismo matemático, acabará com algoritmos de linha de base simples, por exemplo, algo muito mais próximo da correspondência de fluxo em contínuo, ou algo assim em discreto. É o seu transformador de baunilha, mas com atenção bidirecional, onde você reamostra e mascara iterativamente todos os tokens em sua "tela de tokens" com base em um cronograma de ruído até obter a amostra final na última etapa. (A atenção bidirecional é muito mais poderosa e você obtém modelos de linguagem autorregressivos muito mais fortes se treinar com ela, infelizmente torna o treinamento muito mais caro porque agora você não pode paralelizar entre o escurecimento da sequência). Portanto, a regressão automática está fazendo um '.append(token)' na tela de tokens enquanto atende apenas de trás para frente, enquanto a difusão está atualizando toda a tela do token com um '.setitem(idx, token)' enquanto atende bidirecionalmente. O pensamento humano ingenuamente parece um pouco mais com a auto-regressão, mas é difícil dizer que não há mais componentes semelhantes à difusão em algum espaço latente de pensamento. Parece bem possível que você possa interpolar ainda mais entre eles ou generalizá-los ainda mais. E é um componente da pilha LLM que ainda parece um pouco fungível. Agora devo resistir ao impulso de fazer uma busca secundária no treinamento de nanochat com difusão.