Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Ahmad
KI-Forscher und Software-Ingenieur auf der Mission, einen DGX B200 GPU-Cluster aufzubauen
Schritt-für-Schritt LLM Engineering Projekte
ein Projekt = ein Konzept, das auf die harte (d.h. reale) Weise gelernt wurde
Tokenisierung & Einbettungen
> baue einen Byte-Paar-Encoder + trainiere deinen eigenen Subwort-Vokabular
> schreibe einen "Token-Visualizer", um Wörter/Chunks auf IDs abzubilden
> One-Hot vs. gelernte Einbettung: plotte Kosinus-Abstände
Positionale Einbettungen
> klassische sinusoidale vs. gelernte vs. RoPE vs. ALiBi: demonstriere alle vier
> animiere eine Spielzeugsequenz, die in 3D "positionscodiert" wird
> ablatiere Positionen – beobachte, wie die Aufmerksamkeit zusammenbricht
Selbst-Attention & Multihead-Attention
> handverdrahtete Punktprodukt-Attention für ein Token
> skaliere auf Multi-Head, plotte pro-Head Gewicht-Hitzekarten
> maskiere zukünftige Tokens, verifiziere die kausale Eigenschaft
Transformer, QKV & Stapeln
> stapel die Attention-Implementierungen mit LayerNorm und Residuen → Einzelblock-Transformer
> generalisiere: n-Block "Mini-Former" auf Spielzeugdaten
> zerlege Q, K, V: tausche sie aus, breche sie, sieh, was explodiert
Sampling-Parameter: temp/top-k/top-p
> programmiere ein Sampler-Dashboard – interaktiv temp/k/p anpassen und Ausgaben sampeln
> plotte Entropie vs. Ausgabediversität, während du Parameter durchgehst
> nuke temp=0 (argmax): beobachte Wiederholungen
KV-Cache (schnelle Inferenz)
> zeichne KV-Zustände auf und verwende sie wieder; messe Beschleunigung im Vergleich zu ohne Cache
> baue einen "Cache-Hit/Miss"-Visualizer für Token-Streams
> profiliere Cache-Speicherkosten für lange vs. kurze Sequenzen
Tricks für lange Kontexte: Infini-Attention / Sliding Window
> implementiere Sliding Window Attention; messe Verlust bei langen Dokumenten
> benchmarke "speichereffiziente" (Neuberechnung, Flash) Varianten
> plotte Perplexität vs. Kontextlänge; finde den Punkt des Kontextzusammenbruchs
Mischung von Experten (MoE)
> programmiere eine 2-Experten-Router-Schicht; routiere Tokens dynamisch
> plotte Expertennutzungs-Histogramme über den Datensatz
> simuliere spärliche/dichte Swaps; messe FLOP-Einsparungen
Gruppierte Abfrage-Attention
> konvertiere deinen Mini-Former in ein gruppiertes Abfrage-Layout
> messe Geschwindigkeit vs. Vanilla-Multi-Head bei großen Batches
> ablatiere die Anzahl der Gruppen, plotte Latenz
Normalisierung & Aktivierungen
> implementiere LayerNorm, RMSNorm, SwiGLU, GELU von Hand
> ablatiere jede – was passiert mit dem Trainings-/Testverlust?
> plotte Aktivierungsverteilungen schichtweise
Vortraining-Ziele
> trainiere maskiertes LM vs. kausales LM vs. Präfix-LM auf Spielzeugtext
> plotte Verlustkurven; vergleiche, welches schneller "Englisch" lernt
> generiere Proben von jedem – beachte Eigenheiten
Feintuning vs. Instruktions-Tuning vs. RLHF
> feintune auf einem kleinen benutzerdefinierten Datensatz
> instruktions-tune, indem du Aufgaben voranstellst ("Zusammenfassen: ...")
> RLHF: hacke ein Belohnungsmodell, verwende PPO für 10 Schritte, plotte Belohnung
Skalierungsgesetze & Modellkapazität
> trainiere winzige, kleine, mittlere Modelle – plotte Verlust vs. Größe
> benchmarke Wand-Uhrzeit, VRAM, Durchsatz
> extrapoliere Skalierungskurve – wie "dumm" kannst du werden?
Quantisierung
> programmiere PTQ & QAT; exportiere nach GGUF/AWQ; plotte Genauigkeitsverlust
Inferenz-/Trainingsstacks:
> portiere ein Modell von HuggingFace zu Deepspeed, vLLM, ExLlama
> profiliere Durchsatz, VRAM, Latenz über alle drei
Synthetische Daten
> generiere Spielzeugdaten, füge Rauschen hinzu, dedupe, erstelle Evaluierungssplits
> visualisiere Lernkurven des Modells auf realen vs. synthetischen Daten
jedes Projekt = eine zentrale Erkenntnis. bauen. plotten. brechen. wiederholen.
> lass dich nicht zu lange in der Theorie feststecken
> programmiere, debugge, ablatiere, sogar meme deine Grafiken lol
> beende jedes und poste, was du gelernt hast
dein zukünftiges Ich wird dir später danken
37,1K
Schlüsselthemen, um zu lernen, wie LLMs funktionieren, alles, was es braucht, sind < 2 Jahre, wenn Sie eine CS-Grundlage haben
> Tokenisierung und Embeddings
> Positionale Embeddings (absolut, Rope, Alibi)
> Selbstaufmerksamkeit und Multi-Head-Attention
> Transformer
> QKV
> Sampling-Parameter: Temperatur, Top-k, Top-p
> KV-Cache (und warum die Inferenz schnell ist)
> Infini-Attention & Sliding Window (Tricks für langen Kontext)
> Mischung von Experten (MoE-Routing-Schichten)
> Gruppierte Abfrage-Attention
> Normalisierung und Aktivierungen
> Vortrainingsziele (kausal, maskiert, usw.)
> Feintuning vs. Instruction Tuning vs. RLHF
> Skalierungsgesetze und Modellkapazitätskurven
Bonus-Themen:
> Quantisierungen - QAT vs. PTQ (GGUFS, AWQ, usw.)
> Trainings- vs. Inferenz-Stacks (DeepSpeed, VLLM, usw.)
> Generierung synthetischer Daten
5,49K
Top
Ranking
Favoriten