Aqui está o Ritual Research Digest desta semana, um boletim informativo que cobre as últimas novidades no mundo dos LLMs e a interseção de Crypto x AI. Com centenas de artigos publicados semanalmente, é impossível manter-se atualizado com as últimas novidades. Nós fazemos a leitura para que você não precise.
Nem todos os bits são iguais: estratégias de otimização de memória dependentes de escala para modelos de raciocínio Os autores investigam os princípios de compressão de memória para modelos de raciocínio. Eles consideram o tamanho do modelo, a precisão, o comprimento da geração e a compactação do cache KV.
Eles perguntam: Sob um orçamento de memória fixo, qual é o equilíbrio dos fatores para maximizar a precisão nas tarefas de raciocínio? Mais de 1700 experimentos na família Qwen3 em AIME e GPQA-Diamond. Eles descobrem que não existe uma estratégia universal, mas têm recomendações específicas de tamanho.
A arte de dimensionar a computação de aprendizado por reforço para LLMs Este trabalho explora a ciência do dimensionamento de RL e desenvolve o ScaleRL, uma receita que escala previsivelmente com a computação. O design é baseado em um estudo empírico de RL escalonamento em mais de 400.000 horas de GPU.
Eles encontram três princípios-chave: • Os tetos de desempenho RL não são universais • A lição amarga também se aplica ao RL • Intervenções comuns pensadas para melhorar o desempenho de pico ajustam principalmente a eficiência da computação, sem alterar consideravelmente o teto de desempenho.
LLMs podem ter "podridão cerebral"! Este artigo estuda se os LLMs podem apodrecer o cérebro, ou seja, se treinados em texto lixo da web, ele tem declínio cognitivo duradouro nos LLMs? Eles experimentam construindo conjuntos de dados de mídia social (Twitter/X) por meio das duas métricas de lixo.
O benchmarking comparativo entre conjuntos de dados limpos e lixo mostra que a intervenção lixo está associada a declínios cognitivos no raciocínio, contexto de longo prazo e normas éticas. Personalidades sombrias de LLMs emergem com a intervenção de lixo M1, lançando preocupações de segurança significativas.
Não jogue fora seu modelo pré-treinado O alinhamento/RL tornou-se parte integrante do treinamento de LLM, mas tem várias desvantagens, nas quais os modelos básicos pré-treinados se destacam. Este artigo examina como aproveitar os benefícios de ambos os mundos e desenvolver sistemas de IA adaptáveis.
Eles propõem a Geração de Comutadores, em que vários pontos de verificação de modelo são selecionados dinamicamente para geração. Experimentos com 8 linhas de base de colaboração e 18 conjuntos de dados demonstram que as abordagens de colaboração de modelos superam todos os modelos individuais em 16 dos 18 conjuntos de dados.
Como o aprendizado por reforço após a previsão do próximo token facilita o aprendizado O artigo estuda como os modelos autorregressivos são bem-sucedidos em tarefas de previsão desafiadoras seguindo essa receita de treinamento (previsão do próximo token seguida de aprendizado por reforço).
Para experimentos, eles assumem que os dados pré-treinamento contêm demonstrações raras para uma tarefa de interesse. Com base nisso, eles explicam: - Dificuldade de generalização durante o pré-treinamento - Como a RL leva a uma melhoria rápida - O que leva a respostas mais longas?
Siga-nos @ritualdigest para saber mais sobre todas as pesquisas sobre criptomoedas x IA e @ritualnet para saber mais sobre o que a Ritual está construindo.
577