Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Aqui está o Digest do Ritual Research desta semana, um boletim informativo que cobre as últimas novidades no mundo dos LLMs e a interseção entre Crypto x AI.
Com centenas de artigos publicados semanalmente, é impossível manter-se atualizado com o que há de mais recente. Nós fazemos a leitura para que você não precise.

Nem todos os bits são iguais: Estratégias de otimização de memória dependentes da escala para modelos de raciocínio
Os autores investigam os princípios da compressão de memória para modelos de raciocínio. Eles consideram o tamanho do modelo, a precisão, o comprimento do gen e a compressão do cache KV.

Eles perguntam: Sob um orçamento de memória fixo, qual é o equilíbrio dos fatores para maximizar a precisão em tarefas de raciocínio?
Mais de 1700 experimentos na família Qwen3 no AIME e GPQA-Diamond. Eles descobrem que não há uma estratégia universal, mas têm recomendações específicas para o tamanho.

A Arte de Escalar o Cálculo de Aprendizagem por Reforço para LLMs
Este trabalho explora a ciência da escalabilidade de RL e desenvolve o ScaleRL, uma receita que escala de forma previsível com o cálculo. O design é fundamentado em um estudo empírico da escalabilidade de RL ao longo de 400.000 horas de GPU.

Eles encontram três princípios-chave:
• Os tetos de desempenho de RL não são universais
• A lição amarga aplica-se também ao RL
• Intervenções comuns que se pensam melhorar o desempenho máximo ajustam principalmente a eficiência computacional, sem alterar consideravelmente o teto de desempenho.

Os LLMs podem ter "Brain Rot"!
Este artigo estuda se os LLMs podem ter Brain rot, ou seja, se treinados com texto de baixa qualidade da web, isso causa um declínio cognitivo duradouro nos LLMs?
Eles experimentam construindo conjuntos de dados a partir de redes sociais (Twitter/X) através das duas métricas de lixo.

A comparação entre conjuntos de dados limpos e de lixo mostra que a intervenção de lixo está associada a declínios cognitivos em raciocínio, contexto longo e normas éticas.
Personalidades sombrias dos LLMs emergem com a intervenção de lixo M1, levantando preocupações significativas de segurança.


Não Desperdice o Seu Modelo Pré-treinado
A Alinhamento/RL tornou-se integral ao treinamento de LLM, mas tem várias desvantagens, nas quais os modelos base pré-treinados se destacam. Este artigo examina como aproveitar os benefícios de ambos os mundos e desenvolver sistemas de IA adaptáveis.

Eles propõem a Geração Switch, onde múltiplos pontos de verificação de modelos são selecionados dinamicamente para geração.
Experimentos com 8 linhas de base de colaboração e 18 conjuntos de dados demonstram que as abordagens de colaboração de modelos superam todos os modelos individuais em 16 dos 18 conjuntos de dados.


Como o Aprendizado por Reforço Após a Previsão do Próximo Token Facilita o Aprendizado
O artigo estuda como modelos autorregressivos têm sucesso em tarefas de previsão desafiadoras seguindo esta receita de treinamento (previsão do próximo token seguida de aprendizado por reforço).

Para os experimentos, eles assumem que os dados de pré-treinamento contêm demonstrações raras para uma tarefa de interesse.
Com base nisso, eles explicam:
- Dificuldade de generalização durante o pré-treinamento
- Como o RL leva a uma melhoria rápida
- O que leva a respostas mais longas?

Siga-nos @ritualdigest para mais informações sobre tudo relacionado a pesquisa em cripto x IA, e
@ritualnet para saber mais sobre o que a Ritual está construindo.
570
Top
Classificação
Favoritos