Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Ahmad
pesquisador de IA e engenheiro de software, em uma missão para construir um cluster de GPU DGX B200
Projetos de Engenharia LLM passo a passo
cada projeto = um conceito aprendido da maneira mais difícil (ou seja, real)
Tokenização e Incorporação
> construir codificador de par de bytes + treinar seu próprio vocabulário de subpalavras
> escrever um "visualizador de token" para mapear palavras/pedaços para IDs
> one-hot vs learned-embedding: traçar distâncias de cosseno
Incorporações posicionais
> clássico senoidal vs aprendido vs RoPE vs ALiBi: demo todos os quatro
> animar uma sequência de brinquedos sendo "codificada por posição" em 3D
> posições de ablação - observe o colapso da atenção
Auto-Atenção & Atenção Multicabeça
> atenção do produto escalar de fio manual para um token
> dimensionar para mapas de calor de peso por cabeça de várias cabeças, plotar
> mascarar tokens futuros, verificar a propriedade causal
transformadores, QKV, & empilhamento
> empilhar as implementações de Atenção com LayerNorm e resíduos → transformador de bloco único
> generalizar: "mini-former" do bloco n em dados de brinquedos
> dissecar Q, K, V: troque-os, quebre-os, veja o que explode
Parâmetros de amostragem: temp/top-k/top-p
> codificar um painel de sampler — ajustar interativamente as saídas temp/k/p e sample
> entropia de plotagem versus diversidade de saída ao varrer parâmetros
> nuke temp=0 (argmax): repetição do relógio
Cache KV (inferência rápida)
> registram e reutilizam estados KV; Medir a aceleração versus sem cache
> criar um visualizador de "acerto/erro de cache" para fluxos de token
> custo de memória cache de perfil para sequências longas versus curtas
Truques de contexto longo: Infini-Attention / Janela deslizante
> implementar a atenção da janela deslizante; Meça a perda em documentos longos
> variantes de benchmark "eficientes em memória" (recomputação, flash)
> perplexidade do enredo versus duração do contexto; Localizar ponto de recolhimento de contexto
Mistura de Especialistas (MoE)
> codificar uma camada de roteador de 2 especialistas; rotear tokens dinamicamente
> plotar histogramas de utilização do especialista no conjunto de dados
> simular swaps esparsos/densos; medir a economia de FLOP
Atenção de consulta agrupada
> converter seu mini-former em layout de consulta agrupada
> medir a velocidade em comparação com o cabeçote múltiplo vanilla em lotes grandes
> número de grupos de ablação, latência do gráfico
Normalização e Ativações
> LayerNorm da mão-implementar, RMSNorm, SwiGLU, GELU
> ablação de cada um - o que acontece com a perda de treinamento / teste?
> distribuições de ativação de plotagem em camadas
Objetivos do pré-treinamento
> trem mascarado LM vs causal LM vs prefixo LM no texto do brinquedo
> traçar curvas de perda; comparar qual aprende "inglês" mais rápido
> gerar amostras de cada um — observe as peculiaridades
Ajuste fino vs Ajuste de instruções vs RLHF
> ajustar em um pequeno conjunto de dados personalizado
> ajuste de instrução por tarefas de prefixo ("Resumir: ...")
> RLHF: hackear um modelo de recompensa, usar PPO para 10 etapas, enredo recompensa
Leis de escala e capacidade de modelo
> treinam modelos pequenos, pequenos e médios - perda de parcela vs tamanho
> tempo de relógio de parede de referência, VRAM, taxa de transferência
> extrapolar a curva de escala - quão "burro" você pode ir?
Quantização
> código PTQ & QAT; exportar para GGUF/AWQ; Queda de precisão de plotagem
Pilhas de inferência/treinamento:
> portar um modelo de HuggingFace para Deepspeed, vLLM, ExLlama
> taxa de transferência de perfil, VRAM, latência em todos os três
Dados sintéticos
> gerar dados de brinquedos, adicionar ruído, desduplicar, criar divisões de avaliação
> visualizar curvas de aprendizado do modelo no real vs synth
cada projeto = um insight principal. construir. enredo. quebrar. repetir.
> não fique preso por muito tempo na teoria
> código, depurar, ablação e até mesmo meme seus gráficos lol
> terminar cada um e postar o que você aprendeu
seu futuro eu agradecerá mais tarde
37,1K
Principais tópicos para aprender como os LLMs funcionam, basta < 2 anos se você tiver CS Foundation > tokenização e incorporações
> incorporações posicionais (absoluto, corda, álibi)
> auto-atenção e atenção multicabeça
> transformadores
> qkv
> parâmetros de amostragem: temperatura, top-k top-p
> cache de kv (e por que a inferência é rápida)
> atenção infini & janela deslizante (truques de contexto longo)
> mistura de especialistas (camadas de roteamento moe)
> atenção de consulta agrupada
> normalização e ativações
> objetivos de pré-treinamento (causais, mascarados, etc.)
> Ajuste fino vs Ajuste de instrução vs RLHF
> leis de escala e curvas de capacidade do modelo
Tópicos bônus:
> quantizações - QAT vs PTQ (GGUFs, AWQ, etc)
> treinamento vs pilhas de inferência (deepspeed, vllm, etc)
> geração de dados sintéticos
5,49K
Melhores
Classificação
Favoritos