Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Aqui está o Ritual Research Digest desta semana, um boletim informativo que cobre as últimas novidades no mundo dos LLMs e a interseção de Crypto x AI.
Com centenas de artigos publicados semanalmente, é impossível manter-se atualizado com as últimas novidades. Nós fazemos a leitura para que você não precise.

Este artigo pergunta: O que verificar? Como verificar? E por que verificar?
Eles descobrem que o valor da verificação depende de não ter uma aplicação excessivamente rígida que descarte soluções razoáveis, enquanto ignorar completamente a verificação permite que dados de baixa qualidade dominem.
Variação na verificação: Entendendo a dinâmica de verificação em modelos de linguagem grandes
O artigo estuda os fatores que influenciam o sucesso da verificação ao longo do
- dificuldade do problema
- Capacidade de geração de geradores
- capacidade de geração de verificadores.

Eles descobrem que:
- Os verificadores são mais propensos a reconhecer soluções corretas em problemas fáceis
- Erros cometidos por geradores fracos são mais fáceis de detectar do que aqueles cometidos por geradores fortes
- A capacidade de geração do verificador se correlaciona com o desempenho em uma dificuldade de problema.
Aprendizado por reforço em dados pré-treinamento
O artigo propõe o RLPT, que dimensiona o RL em dados pré-treinamento. Eles propõem um objetivo de raciocínio do próximo segmento que recompensa os LLMs por prever o próximo segmento corretamente, dado o contexto anterior.

Experimentos extensivos sobre raciocínio matemático e de domínio geral mostram que o RLPT melhora substancialmente o desempenho e exibe uma tendência de escala favorável, e demonstram ainda que o RLPT fornece uma base sólida para o RLVR subsequente.

ARE: Escalando ambientes e avaliações de agentes
Este artigo propõe o Meta Agents Research Environments (ARE), uma plataforma que suporta orquestrações, criação de ambientes e conexão de aplicativos para desenvolvimento e avaliação de agentes.

O artigo também apresenta o Gaia2, uma avaliação para agentes. O Gaia2 é composto por 1.120 cenários verificáveis e anotados que ocorrem em um ambiente móvel, imitando um smartphone com aplicativos como e-mail, mensagens e calendário. Eles acham que o gpt-5 alto tem melhor desempenho.

Siga-nos @ritualdigest para saber mais sobre todas as pesquisas sobre criptomoedas x IA e
@ritualnet para saber mais sobre o que a Ritual está construindo.
7,21K
Melhores
Classificação
Favoritos