Sklep DApp | Centrum Web3 dla wydarzeń i gier

Popularne tematy

Ahmad

Badacz sztucznej inteligencji i inżynier oprogramowania, z misją zbudowania klastra GPU DGX B200

projekty inżynieryjne LLM krok po kroku dany projekt = jedna koncepcja nauczona w trudny (tj. rzeczywisty) sposób Tokenizacja i osadzenia > zbuduj kodera par bajtowych + wytrenuj własny słownik subwyrazów > napisz „wizualizator tokenów”, aby mapować słowa/kawałki na ID > one-hot vs osadzenie uczone: wykres odległości cosinusowych Osadzenia pozycyjne > klasyczne sinusoidalne vs uczone vs RoPE vs ALiBi: zademonstruj wszystkie cztery > animuj zabawkową sekwencję, która jest „kodowana pozycyjnie” w 3D > ablate pozycje — obserwuj, jak uwaga się załamuje Samo-uwaga i uwaga wielogłowa > ręcznie połącz uwagę dot-product dla jednego tokena > skaluj do multi-head, wykres wag ciepłotowych na głowę > zamaskuj przyszłe tokeny, zweryfikuj właściwość przyczynową transformery, QKV i stosowanie > połącz implementacje uwagi z LayerNorm i resztkami → transformator jednego bloku > uogólnij: n-blokowy „mini-former” na danych zabawkowych > rozdziel Q, K, V: zamień je, złam je, zobacz, co eksploduje Parametry próbkowania: temp/top-k/top-p > zaprogramuj pulpit nawigacyjny próbkowania — interaktywnie dostosuj temp/k/p i próbki wyjściowe > wykres entropii vs różnorodności wyjściowej podczas przeszukiwania parametrów > zniszcz temp=0 (argmax): obserwuj powtórzenia Cache KV (szybkie wnioskowanie) > rejestruj i ponownie używaj stanów KV; zmierz przyspieszenie w porównaniu do braku cache > zbuduj „wizualizator trafień/misów cache” dla strumieni tokenów > profiluj koszt pamięci cache dla długich vs krótkich sekwencji Sztuczki długiego kontekstu: Infini-Attention / Sliding Window > zaimplementuj uwagę z przesuwanym oknem; zmierz stratę na długich dokumentach > porównaj „efektywne pamięciowo” (przelicz, flash) warianty > wykres perplexity vs długość kontekstu; znajdź punkt załamania kontekstu Mieszanka ekspertów (MoE) > zaprogramuj warstwę routera 2-ekspertów; kieruj tokenami dynamicznie > wykres histogramów wykorzystania ekspertów w zbiorze danych > symuluj rzadkie/gęste zamiany; zmierz oszczędności FLOP Uwaga grupowa zapytań > przekształć swojego mini-formera w układ zapytań grupowych > zmierz prędkość w porównaniu do zwykłej multi-head na dużej partii > ablate liczbę grup, wykres opóźnienia Normalizacja i aktywacje > ręcznie zaimplementuj LayerNorm, RMSNorm, SwiGLU, GELU > ablate każdy — co się dzieje ze stratą treningową/testową? > wykres rozkładów aktywacji warstwowo Cele wstępnego treningu > trenuj zamaskowany LM vs przyczynowy LM vs prefix LM na zabawkowym tekście > wykres krzywych strat; porównaj, który szybciej uczy się „angielskiego” > generuj próbki z każdego — zauważ dziwactwa Dostosowywanie vs Dostosowywanie instrukcji vs RLHF > dostosuj na małym niestandardowym zbiorze danych > dostosuj instrukcje, dodając zadania („Podsumuj: ...”) > RLHF: zhakuj model nagrody, użyj PPO przez 10 kroków, wykres nagrody Prawa skalowania i pojemność modelu > trenuj małe, średnie modele — wykres strat vs rozmiar > porównaj czas zegarowy, VRAM, przepustowość > ekstrapoluj krzywą skalowania — jak „głupi” możesz być? Kwantyzacja > zaprogramuj PTQ i QAT; eksportuj do GGUF/AWQ; wykres spadku dokładności Stosy wnioskowania/treningu: > przenieś model z HuggingFace do Deepspeed, vLLM, ExLlama > profiluj przepustowość, VRAM, opóźnienie we wszystkich trzech Syntetyczne dane > generuj dane zabawkowe, dodaj szum, usuń duplikaty, stwórz podziały ewaluacyjne > wizualizuj krzywe uczenia modelu na danych rzeczywistych vs syntetycznych każdy projekt = jedna kluczowa spostrzeżenie. buduj. wykres. łam. powtarzaj. > nie utknij zbyt długo w teorii > koduj, debuguj, ablate, nawet memuj swoje wykresy lol > zakończ każdy i opublikuj, czego się nauczyłeś > twoje przyszłe ja podziękuje ci później

Najlepsze

Ranking

Ulubione