テキスト(離散)拡散がいかに単純であるかを示す、素敵で短い投稿です。 拡散(つまり、並列、反復ノイズ除去、上)は、画像/ビデオに広く普及している生成パラダイムですが、自己回帰(つまり、左から右下に移動)は、テキストの支配的なパラダイムです。オーディオについては、両方を少し見てきました。 多くの拡散論文は少し密度が高いように見えますが、数学的形式主義を取り除くと、単純なベースラインアルゴリズム、たとえば連続的なフローマッチングにはるかに近いもの、または離散的なフローマッチングにはるかに近いものになります。これはバニラのトランスフォーマーですが、双方向の注意があり、最後のステップで最終サンプルを取得するまで、ノイズ スケジュールに基づいて「トークン キャンバス」内のすべてのトークンを繰り返し再サンプリングおよび再マスクします。(双方向の注意ははるかに強力であり、それを使用してトレーニングすると、はるかに強力な自己回帰言語モデルが得られますが、残念ながら、シーケンスの暗い間で並列化できないため、トレーニングのコストが大幅に高くなります)。 したがって、自己回帰は、トークンキャンバスに「.append(token)」を実行し、逆方向にのみ参加しますが、拡散は、双方向に参加しながら「.setitem(idx, token)」を使用してトークンキャンバス全体を更新します。人間の思考は素朴に自己回帰のように感じられますが、思考の潜在的な空間に拡散のような要素がこれ以上ないとは言い難いです。それらの間をさらに補間したり、さらに一般化したりできる可能性は十分にあると感じます。そして、これは LLM スタックのコンポーネントであり、まだ少し代替可能であると感じられます。 今、私はディフュージョンでナノチャットをトレーニングするためのサイドクエストへの衝動を抑えなければなりません。