Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Aqui está o Ritual Research Digest desta semana, um boletim informativo que cobre as últimas novidades no mundo dos LLMs e a interseção de Crypto x AI.
Com centenas de artigos publicados semanalmente, é impossível manter-se atualizado com as últimas novidades. Nós fazemos a leitura para que você não precise.

Nem todos os bits são iguais: estratégias de otimização de memória dependentes de escala para modelos de raciocínio
Os autores investigam os princípios de compressão de memória para modelos de raciocínio. Eles consideram o tamanho do modelo, a precisão, o comprimento da geração e a compactação do cache KV.

Eles perguntam: Sob um orçamento de memória fixo, qual é o equilíbrio dos fatores para maximizar a precisão nas tarefas de raciocínio?
Mais de 1700 experimentos na família Qwen3 em AIME e GPQA-Diamond. Eles descobrem que não existe uma estratégia universal, mas têm recomendações específicas de tamanho.

A arte de dimensionar a computação de aprendizado por reforço para LLMs
Este trabalho explora a ciência do dimensionamento de RL e desenvolve o ScaleRL, uma receita que escala previsivelmente com a computação. O design é baseado em um estudo empírico de RL escalonamento em mais de 400.000 horas de GPU.

Eles encontram três princípios-chave:
• Os tetos de desempenho RL não são universais
• A lição amarga também se aplica ao RL
• Intervenções comuns pensadas para melhorar o desempenho de pico ajustam principalmente a eficiência da computação, sem alterar consideravelmente o teto de desempenho.

LLMs podem ter "podridão cerebral"!
Este artigo estuda se os LLMs podem apodrecer o cérebro, ou seja, se treinados em texto lixo da web, ele tem declínio cognitivo duradouro nos LLMs?
Eles experimentam construindo conjuntos de dados de mídia social (Twitter/X) por meio das duas métricas de lixo.

O benchmarking comparativo entre conjuntos de dados limpos e lixo mostra que a intervenção lixo está associada a declínios cognitivos no raciocínio, contexto de longo prazo e normas éticas.
Personalidades sombrias de LLMs emergem com a intervenção de lixo M1, lançando preocupações de segurança significativas.


Não jogue fora seu modelo pré-treinado
O alinhamento/RL tornou-se parte integrante do treinamento de LLM, mas tem várias desvantagens, nas quais os modelos básicos pré-treinados se destacam. Este artigo examina como aproveitar os benefícios de ambos os mundos e desenvolver sistemas de IA adaptáveis.

Eles propõem a Geração de Comutadores, em que vários pontos de verificação de modelo são selecionados dinamicamente para geração.
Experimentos com 8 linhas de base de colaboração e 18 conjuntos de dados demonstram que as abordagens de colaboração de modelos superam todos os modelos individuais em 16 dos 18 conjuntos de dados.


Como o aprendizado por reforço após a previsão do próximo token facilita o aprendizado
O artigo estuda como os modelos autorregressivos são bem-sucedidos em tarefas de previsão desafiadoras seguindo essa receita de treinamento (previsão do próximo token seguida de aprendizado por reforço).

Para experimentos, eles assumem que os dados pré-treinamento contêm demonstrações raras para uma tarefa de interesse.
Com base nisso, eles explicam:
- Dificuldade de generalização durante o pré-treinamento
- Como a RL leva a uma melhoria rápida
- O que leva a respostas mais longas?

Siga-nos @ritualdigest para saber mais sobre todas as pesquisas sobre criptomoedas x IA e
@ritualnet para saber mais sobre o que a Ritual está construindo.
577
Melhores
Classificação
Favoritos