Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Хороший, короткий пост, иллюстрирующий, насколько простым может быть текстовое (дискретное) диффузионное моделирование.
Диффузия (т.е. параллельное, итеративное денойзинг, топ) является повсеместной генеративной парадигмой в изображениях/видео, но автогрессия (т.е. движение слева направо, снизу вверх) является доминирующей парадигмой в тексте. Что касается аудио, я видел немного того и другого.
Много диффузионных статей выглядят довольно сложными, но если убрать математический формализм, вы получите простые базовые алгоритмы, например, что-то гораздо ближе к сопоставлению потоков в непрерывном, или что-то подобное в дискретном. Это ваш ванильный трансформер, но с двунаправленным вниманием, где вы итеративно повторно выбираете и повторно маскируете все токены в вашем "канвасе токенов" на основе графика шума, пока не получите финальный образец на последнем шаге. (Двунаправленное внимание гораздо мощнее, и вы получаете гораздо более сильные автогрессивные языковые модели, если обучаете с ним, к сожалению, это делает обучение гораздо более дорогим, потому что теперь вы не можете параллелить по размерности последовательности).
Таким образом, автогрессия выполняет `.append(token)` к канвасу токенов, в то время как диффузия обновляет весь канвас токенов с помощью `.setitem(idx, token)`, одновременно обращая внимание в обе стороны. Человеческое мышление наивно кажется немного более похожим на автогрессию, но трудно сказать, что в некотором скрытом пространстве мышления нет более диффузионных компонентов. Кажется вполне возможным, что вы можете дополнительно интерполировать между ними или обобщить их дальше. И это компонент стека LLM, который все еще кажется немного изменчивым.
Теперь я должен сопротивляться искушению уйти в сторону и заняться обучением nanochat с помощью диффузии.
Топ
Рейтинг
Избранное

