Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Ahmad
Badacz sztucznej inteligencji i inżynier oprogramowania, z misją zbudowania klastra GPU DGX B200
projekty inżynieryjne LLM krok po kroku
dany projekt = jedna koncepcja nauczona w trudny (tj. rzeczywisty) sposób
Tokenizacja i osadzenia
> zbuduj kodera par bajtowych + wytrenuj własny słownik subwyrazów
> napisz „wizualizator tokenów”, aby mapować słowa/kawałki na ID
> one-hot vs osadzenie uczone: wykres odległości cosinusowych
Osadzenia pozycyjne
> klasyczne sinusoidalne vs uczone vs RoPE vs ALiBi: zademonstruj wszystkie cztery
> animuj zabawkową sekwencję, która jest „kodowana pozycyjnie” w 3D
> ablate pozycje — obserwuj, jak uwaga się załamuje
Samo-uwaga i uwaga wielogłowa
> ręcznie połącz uwagę dot-product dla jednego tokena
> skaluj do multi-head, wykres wag ciepłotowych na głowę
> zamaskuj przyszłe tokeny, zweryfikuj właściwość przyczynową
transformery, QKV i stosowanie
> połącz implementacje uwagi z LayerNorm i resztkami → transformator jednego bloku
> uogólnij: n-blokowy „mini-former” na danych zabawkowych
> rozdziel Q, K, V: zamień je, złam je, zobacz, co eksploduje
Parametry próbkowania: temp/top-k/top-p
> zaprogramuj pulpit nawigacyjny próbkowania — interaktywnie dostosuj temp/k/p i próbki wyjściowe
> wykres entropii vs różnorodności wyjściowej podczas przeszukiwania parametrów
> zniszcz temp=0 (argmax): obserwuj powtórzenia
Cache KV (szybkie wnioskowanie)
> rejestruj i ponownie używaj stanów KV; zmierz przyspieszenie w porównaniu do braku cache
> zbuduj „wizualizator trafień/misów cache” dla strumieni tokenów
> profiluj koszt pamięci cache dla długich vs krótkich sekwencji
Sztuczki długiego kontekstu: Infini-Attention / Sliding Window
> zaimplementuj uwagę z przesuwanym oknem; zmierz stratę na długich dokumentach
> porównaj „efektywne pamięciowo” (przelicz, flash) warianty
> wykres perplexity vs długość kontekstu; znajdź punkt załamania kontekstu
Mieszanka ekspertów (MoE)
> zaprogramuj warstwę routera 2-ekspertów; kieruj tokenami dynamicznie
> wykres histogramów wykorzystania ekspertów w zbiorze danych
> symuluj rzadkie/gęste zamiany; zmierz oszczędności FLOP
Uwaga grupowa zapytań
> przekształć swojego mini-formera w układ zapytań grupowych
> zmierz prędkość w porównaniu do zwykłej multi-head na dużej partii
> ablate liczbę grup, wykres opóźnienia
Normalizacja i aktywacje
> ręcznie zaimplementuj LayerNorm, RMSNorm, SwiGLU, GELU
> ablate każdy — co się dzieje ze stratą treningową/testową?
> wykres rozkładów aktywacji warstwowo
Cele wstępnego treningu
> trenuj zamaskowany LM vs przyczynowy LM vs prefix LM na zabawkowym tekście
> wykres krzywych strat; porównaj, który szybciej uczy się „angielskiego”
> generuj próbki z każdego — zauważ dziwactwa
Dostosowywanie vs Dostosowywanie instrukcji vs RLHF
> dostosuj na małym niestandardowym zbiorze danych
> dostosuj instrukcje, dodając zadania („Podsumuj: ...”)
> RLHF: zhakuj model nagrody, użyj PPO przez 10 kroków, wykres nagrody
Prawa skalowania i pojemność modelu
> trenuj małe, średnie modele — wykres strat vs rozmiar
> porównaj czas zegarowy, VRAM, przepustowość
> ekstrapoluj krzywą skalowania — jak „głupi” możesz być?
Kwantyzacja
> zaprogramuj PTQ i QAT; eksportuj do GGUF/AWQ; wykres spadku dokładności
Stosy wnioskowania/treningu:
> przenieś model z HuggingFace do Deepspeed, vLLM, ExLlama
> profiluj przepustowość, VRAM, opóźnienie we wszystkich trzech
Syntetyczne dane
> generuj dane zabawkowe, dodaj szum, usuń duplikaty, stwórz podziały ewaluacyjne
> wizualizuj krzywe uczenia modelu na danych rzeczywistych vs syntetycznych
każdy projekt = jedna kluczowa spostrzeżenie. buduj. wykres. łam. powtarzaj.
> nie utknij zbyt długo w teorii
> koduj, debuguj, ablate, nawet memuj swoje wykresy lol
> zakończ każdy i opublikuj, czego się nauczyłeś
> twoje przyszłe ja podziękuje ci później
37,1K
kluczowe tematy do nauki, jak działają llms, wszystko, czego potrzebujesz, to < 2 lata, jeśli masz podstawy informatyki
> tokenizacja i osadzenia
> osadzenia pozycyjne (absolutne, rope, alibi)
> uwaga własna i uwaga wielogłowa
> transformatory
> qkv
> parametry próbkowania: temperatura, top-k, top-p
> pamięć podręczna kv (i dlaczego wnioskowanie jest szybkie)
> nieskończona uwaga i okno przesuwne (sztuczki z długim kontekstem)
> mieszanka ekspertów (warstwy routingu moe)
> uwaga grupowa zapytań
> normalizacja i aktywacje
> cele wstępnego uczenia (przyczynowe, maskowane itp.)
> dostrajanie vs dostrajanie instrukcji vs rlhf
> prawa skalowania i krzywe pojemności modeli
tematy dodatkowe:
> kwantyzacje - qat vs ptq (ggufs, awq itp.)
> stosy treningowe vs wnioskowania (deepspeed, vllm itp.)
> generacja danych syntetycznych
5,49K
Najlepsze
Ranking
Ulubione