Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Fajny, krótki post ilustrujący, jak prosta może być dyfuzja tekstu (dyskretna).
Dyfuzja (tj. równoległe, iteracyjne odszumianie, top) jest wszechobecnym paradygmatem generatywnym w obrazach/wideo, ale autoregresja (tj. od lewej do prawej, w dół) jest dominującym paradygmatem w tekście. W przypadku dźwięku widziałem trochę obu.
Wiele prac na temat dyfuzji wygląda dość gęsto, ale jeśli pozbawisz je formalizmu matematycznego, otrzymasz proste algorytmy bazowe, np. coś znacznie bliższego dopasowywaniu przepływu w ciągłym, lub coś takiego w dyskretnym. To twój waniliowy transformer, ale z dwukierunkową uwagą, gdzie iteracyjnie ponownie próbkowujesz i ponownie maskujesz wszystkie tokeny w swoim "płótnie tokenów" w oparciu o harmonogram szumów, aż uzyskasz ostateczną próbkę na ostatnim kroku. (Dwukierunkowa uwaga jest znacznie potężniejsza, a jeśli trenujesz z nią, otrzymujesz znacznie silniejsze modele językowe autoregresywne, niestety sprawia, że trening jest znacznie droższy, ponieważ teraz nie możesz równolegle przetwarzać wzdłuż wymiaru sekwencji).
Więc autoregresja wykonuje `.append(token)` do płótna tokenów, podczas gdy tylko zwraca uwagę wstecz, podczas gdy dyfuzja odświeża całe płótno tokenów za pomocą `.setitem(idx, token)` przy jednoczesnym zwracaniu uwagi w obu kierunkach. Ludzka myśl naiwna wydaje się trochę bardziej jak autoregresja, ale trudno powiedzieć, że nie ma więcej komponentów podobnych do dyfuzji w jakiejś ukrytej przestrzeni myśli. Wydaje się całkiem możliwe, że można dalej interpolować między nimi lub uogólniać je dalej. I to jest komponent stosu LLM, który wciąż wydaje się trochę elastyczny.
Teraz muszę powstrzymać się od pokusy, aby zbaczać w kierunku trenowania nanochatu z dyfuzją.
Najlepsze
Ranking
Ulubione

