Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
O postare scurtă și frumoasă care ilustrează cât de simplă poate fi difuzarea textului (discretă).
Difuzia este paradigma generativă omniprezentă în imagine/video, dar autoregresia (adică mergeți de la stânga la dreapta jos) este paradigma dominantă în text. Pentru audio am văzut un pic din ambele.
O mulțime de lucrări de difuzie arată puțin dense, dar dacă elimini formalismul matematic, ajungi la algoritmi simpli de bază, de exemplu ceva mult mai aproape de potrivirea fluxului în continuu, sau ceva de genul acesta în discret. Este transformatorul tău vanilie, dar cu atenție bidirecțională, unde re-eșantionați și re-mascați toate jetoanele din "pânza de jetoane" pe baza unui program de zgomot până când obțineți eșantionul final la ultimul pas. (Atenția bidirecțională este mult mai puternică și obțineți modele de limbaj autoregresive mult mai puternice dacă vă antrenați cu ea, din păcate face antrenamentul mult mai scump, deoarece acum nu puteți paraleliza între întunericul secvenței).
Deci, autoregresia face un '.append(token)' la canvasul token-urilor în timp ce merge doar înapoi, în timp ce difuzia reîmprospătează întreaga pânză token cu un '.setitem(idx, token)' în timp ce participă bidirecțional. Gândirea umană se simte mai degrabă ca o autoregresie, dar este greu de spus că nu există mai multe componente asemănătoare difuziei într-un spațiu latent al gândirii. Se pare foarte posibil să puteți interpola în continuare între ele sau să le generalizați mai departe. Și este o componentă a stivei LLM care încă se simte puțin fungibilă.
Acum trebuie să rezist tentației de a antrena nanochat cu difuzie.
Limită superioară
Clasament
Favorite

