Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Aqui está o Digest do Ritual Research desta semana, um boletim informativo que cobre as últimas novidades no mundo dos LLMs e a interseção entre Crypto x AI.
Com centenas de artigos publicados semanalmente, é impossível manter-se atualizado com o que há de mais recente. Nós fazemos a leitura para que você não precise.

Este artigo pergunta: O que verificar? Como verificar? E por que verificar, afinal?
Eles descobrem que o valor da verificação depende de não ter uma aplicação excessivamente rígida que descarte soluções razoáveis, enquanto ignorar a verificação por completo permite que dados de baixa qualidade dominem.
Variação na Verificação: Compreendendo a Dinâmica da Verificação em Modelos de Linguagem de Grande Escala
O artigo estuda os fatores que influenciam o sucesso da verificação ao longo
- dificuldade do problema
- capacidade de geração dos geradores
- capacidade de geração dos verificadores.

Eles descobrem que:
- Os verificadores têm mais probabilidade de reconhecer soluções corretas em problemas fáceis
- Os erros cometidos por geradores fracos são mais fáceis de detectar do que aqueles cometidos por geradores fortes
- A capacidade de geração do verificador correlaciona-se com o desempenho em uma dificuldade de problema.
Aprendizagem por Reforço em Dados de Pré-Treinamento
O artigo propõe o RLPT, que escala a aprendizagem por reforço em dados de pré-treinamento. Eles propõem um objetivo de raciocínio de próximo segmento que recompensa os LLMs por prever corretamente o próximo segmento dado o contexto anterior.

Experimentos extensivos em raciocínio de domínio geral e matemático mostram que o RLPT melhora substancialmente o desempenho e exibe uma tendência de escalonamento favorável, além de demonstrar que o RLPT fornece uma base sólida para o subsequente RLVR.

ARE: Escalando Ambientes e Avaliações de Agentes
Este artigo propõe Ambientes de Pesquisa de Meta Agentes (ARE), uma plataforma que suporta orquestrações, criação de ambientes e conexão de aplicativos para desenvolvimento e avaliação de agentes.

O artigo também apresenta o Gaia2, uma avaliação para agentes. O Gaia2 é composto por 1.120 cenários verificáveis e anotados que ocorrem em um ambiente Móvel, imitando um smartphone com aplicativos como e-mail, mensagens e calendário. Eles descobrem que o gpt-5 tem o melhor desempenho.

Siga-nos @ritualdigest para mais informações sobre tudo relacionado a pesquisa em cripto x IA, e
@ritualnet para saber mais sobre o que a Ritual está construindo.
7,21K
Top
Classificação
Favoritos