DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

Ahmad

pesquisador de IA e engenheiro de software, em uma missão para construir um cluster de GPU DGX B200

Projetos de Engenharia LLM passo a passo cada projeto = um conceito aprendido da maneira mais difícil (ou seja, real) Tokenização e Incorporação > construir codificador de par de bytes + treinar seu próprio vocabulário de subpalavras > escrever um "visualizador de token" para mapear palavras/pedaços para IDs > one-hot vs learned-embedding: traçar distâncias de cosseno Incorporações posicionais > clássico senoidal vs aprendido vs RoPE vs ALiBi: demo todos os quatro > animar uma sequência de brinquedos sendo "codificada por posição" em 3D > posições de ablação - observe o colapso da atenção Auto-Atenção & Atenção Multicabeça > atenção do produto escalar de fio manual para um token > dimensionar para mapas de calor de peso por cabeça de várias cabeças, plotar > mascarar tokens futuros, verificar a propriedade causal transformadores, QKV, & empilhamento > empilhar as implementações de Atenção com LayerNorm e resíduos → transformador de bloco único > generalizar: "mini-former" do bloco n em dados de brinquedos > dissecar Q, K, V: troque-os, quebre-os, veja o que explode Parâmetros de amostragem: temp/top-k/top-p > codificar um painel de sampler — ajustar interativamente as saídas temp/k/p e sample > entropia de plotagem versus diversidade de saída ao varrer parâmetros > nuke temp=0 (argmax): repetição do relógio Cache KV (inferência rápida) > registram e reutilizam estados KV; Medir a aceleração versus sem cache > criar um visualizador de "acerto/erro de cache" para fluxos de token > custo de memória cache de perfil para sequências longas versus curtas Truques de contexto longo: Infini-Attention / Janela deslizante > implementar a atenção da janela deslizante; Meça a perda em documentos longos > variantes de benchmark "eficientes em memória" (recomputação, flash) > perplexidade do enredo versus duração do contexto; Localizar ponto de recolhimento de contexto Mistura de Especialistas (MoE) > codificar uma camada de roteador de 2 especialistas; rotear tokens dinamicamente > plotar histogramas de utilização do especialista no conjunto de dados > simular swaps esparsos/densos; medir a economia de FLOP Atenção de consulta agrupada > converter seu mini-former em layout de consulta agrupada > medir a velocidade em comparação com o cabeçote múltiplo vanilla em lotes grandes > número de grupos de ablação, latência do gráfico Normalização e Ativações > LayerNorm da mão-implementar, RMSNorm, SwiGLU, GELU > ablação de cada um - o que acontece com a perda de treinamento / teste? > distribuições de ativação de plotagem em camadas Objetivos do pré-treinamento > trem mascarado LM vs causal LM vs prefixo LM no texto do brinquedo > traçar curvas de perda; comparar qual aprende "inglês" mais rápido > gerar amostras de cada um — observe as peculiaridades Ajuste fino vs Ajuste de instruções vs RLHF > ajustar em um pequeno conjunto de dados personalizado > ajuste de instrução por tarefas de prefixo ("Resumir: ...") > RLHF: hackear um modelo de recompensa, usar PPO para 10 etapas, enredo recompensa Leis de escala e capacidade de modelo > treinam modelos pequenos, pequenos e médios - perda de parcela vs tamanho > tempo de relógio de parede de referência, VRAM, taxa de transferência > extrapolar a curva de escala - quão "burro" você pode ir? Quantização > código PTQ & QAT; exportar para GGUF/AWQ; Queda de precisão de plotagem Pilhas de inferência/treinamento: > portar um modelo de HuggingFace para Deepspeed, vLLM, ExLlama > taxa de transferência de perfil, VRAM, latência em todos os três Dados sintéticos > gerar dados de brinquedos, adicionar ruído, desduplicar, criar divisões de avaliação > visualizar curvas de aprendizado do modelo no real vs synth cada projeto = um insight principal. construir. enredo. quebrar. repetir. > não fique preso por muito tempo na teoria > código, depurar, ablação e até mesmo meme seus gráficos lol > terminar cada um e postar o que você aprendeu seu futuro eu agradecerá mais tarde

Melhores

Classificação

Favoritos