DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

Ahmad

KI-Forscher und Software-Ingenieur auf der Mission, einen DGX B200 GPU-Cluster aufzubauen

Schritt-für-Schritt LLM Engineering Projekte ein Projekt = ein Konzept, das auf die harte (d.h. reale) Weise gelernt wurde Tokenisierung & Einbettungen > baue einen Byte-Paar-Encoder + trainiere deinen eigenen Subwort-Vokabular > schreibe einen "Token-Visualizer", um Wörter/Chunks auf IDs abzubilden > One-Hot vs. gelernte Einbettung: plotte Kosinus-Abstände Positionale Einbettungen > klassische sinusoidale vs. gelernte vs. RoPE vs. ALiBi: demonstriere alle vier > animiere eine Spielzeugsequenz, die in 3D "positionscodiert" wird > ablatiere Positionen – beobachte, wie die Aufmerksamkeit zusammenbricht Selbst-Attention & Multihead-Attention > handverdrahtete Punktprodukt-Attention für ein Token > skaliere auf Multi-Head, plotte pro-Head Gewicht-Hitzekarten > maskiere zukünftige Tokens, verifiziere die kausale Eigenschaft Transformer, QKV & Stapeln > stapel die Attention-Implementierungen mit LayerNorm und Residuen → Einzelblock-Transformer > generalisiere: n-Block "Mini-Former" auf Spielzeugdaten > zerlege Q, K, V: tausche sie aus, breche sie, sieh, was explodiert Sampling-Parameter: temp/top-k/top-p > programmiere ein Sampler-Dashboard – interaktiv temp/k/p anpassen und Ausgaben sampeln > plotte Entropie vs. Ausgabediversität, während du Parameter durchgehst > nuke temp=0 (argmax): beobachte Wiederholungen KV-Cache (schnelle Inferenz) > zeichne KV-Zustände auf und verwende sie wieder; messe Beschleunigung im Vergleich zu ohne Cache > baue einen "Cache-Hit/Miss"-Visualizer für Token-Streams > profiliere Cache-Speicherkosten für lange vs. kurze Sequenzen Tricks für lange Kontexte: Infini-Attention / Sliding Window > implementiere Sliding Window Attention; messe Verlust bei langen Dokumenten > benchmarke "speichereffiziente" (Neuberechnung, Flash) Varianten > plotte Perplexität vs. Kontextlänge; finde den Punkt des Kontextzusammenbruchs Mischung von Experten (MoE) > programmiere eine 2-Experten-Router-Schicht; routiere Tokens dynamisch > plotte Expertennutzungs-Histogramme über den Datensatz > simuliere spärliche/dichte Swaps; messe FLOP-Einsparungen Gruppierte Abfrage-Attention > konvertiere deinen Mini-Former in ein gruppiertes Abfrage-Layout > messe Geschwindigkeit vs. Vanilla-Multi-Head bei großen Batches > ablatiere die Anzahl der Gruppen, plotte Latenz Normalisierung & Aktivierungen > implementiere LayerNorm, RMSNorm, SwiGLU, GELU von Hand > ablatiere jede – was passiert mit dem Trainings-/Testverlust? > plotte Aktivierungsverteilungen schichtweise Vortraining-Ziele > trainiere maskiertes LM vs. kausales LM vs. Präfix-LM auf Spielzeugtext > plotte Verlustkurven; vergleiche, welches schneller "Englisch" lernt > generiere Proben von jedem – beachte Eigenheiten Feintuning vs. Instruktions-Tuning vs. RLHF > feintune auf einem kleinen benutzerdefinierten Datensatz > instruktions-tune, indem du Aufgaben voranstellst ("Zusammenfassen: ...") > RLHF: hacke ein Belohnungsmodell, verwende PPO für 10 Schritte, plotte Belohnung Skalierungsgesetze & Modellkapazität > trainiere winzige, kleine, mittlere Modelle – plotte Verlust vs. Größe > benchmarke Wand-Uhrzeit, VRAM, Durchsatz > extrapoliere Skalierungskurve – wie "dumm" kannst du werden? Quantisierung > programmiere PTQ & QAT; exportiere nach GGUF/AWQ; plotte Genauigkeitsverlust Inferenz-/Trainingsstacks: > portiere ein Modell von HuggingFace zu Deepspeed, vLLM, ExLlama > profiliere Durchsatz, VRAM, Latenz über alle drei Synthetische Daten > generiere Spielzeugdaten, füge Rauschen hinzu, dedupe, erstelle Evaluierungssplits > visualisiere Lernkurven des Modells auf realen vs. synthetischen Daten jedes Projekt = eine zentrale Erkenntnis. bauen. plotten. brechen. wiederholen. > lass dich nicht zu lange in der Theorie feststecken > programmiere, debugge, ablatiere, sogar meme deine Grafiken lol > beende jedes und poste, was du gelernt hast dein zukünftiges Ich wird dir später danken

Top

Ranking

Favoriten