Aqui está o Digest do Ritual Research desta semana, um boletim informativo que cobre as últimas novidades no mundo dos LLMs e a interseção entre Crypto x AI. Com centenas de artigos publicados semanalmente, é impossível manter-se atualizado com o que há de mais recente. Nós fazemos a leitura para que você não precise.
Este artigo pergunta: O que verificar? Como verificar? E por que verificar, afinal? Eles descobrem que o valor da verificação depende de não ter uma aplicação excessivamente rígida que descarte soluções razoáveis, enquanto ignorar a verificação por completo permite que dados de baixa qualidade dominem.
Variação na Verificação: Compreendendo a Dinâmica da Verificação em Modelos de Linguagem de Grande Escala O artigo estuda os fatores que influenciam o sucesso da verificação ao longo - dificuldade do problema - capacidade de geração dos geradores - capacidade de geração dos verificadores.
Eles descobrem que: - Os verificadores têm mais probabilidade de reconhecer soluções corretas em problemas fáceis - Os erros cometidos por geradores fracos são mais fáceis de detectar do que aqueles cometidos por geradores fortes - A capacidade de geração do verificador correlaciona-se com o desempenho em uma dificuldade de problema.
Aprendizagem por Reforço em Dados de Pré-Treinamento O artigo propõe o RLPT, que escala a aprendizagem por reforço em dados de pré-treinamento. Eles propõem um objetivo de raciocínio de próximo segmento que recompensa os LLMs por prever corretamente o próximo segmento dado o contexto anterior.
Experimentos extensivos em raciocínio de domínio geral e matemático mostram que o RLPT melhora substancialmente o desempenho e exibe uma tendência de escalonamento favorável, além de demonstrar que o RLPT fornece uma base sólida para o subsequente RLVR.
ARE: Escalando Ambientes e Avaliações de Agentes Este artigo propõe Ambientes de Pesquisa de Meta Agentes (ARE), uma plataforma que suporta orquestrações, criação de ambientes e conexão de aplicativos para desenvolvimento e avaliação de agentes.
O artigo também apresenta o Gaia2, uma avaliação para agentes. O Gaia2 é composto por 1.120 cenários verificáveis e anotados que ocorrem em um ambiente Móvel, imitando um smartphone com aplicativos como e-mail, mensagens e calendário. Eles descobrem que o gpt-5 tem o melhor desempenho.
Siga-nos @ritualdigest para mais informações sobre tudo relacionado a pesquisa em cripto x IA, e @ritualnet para saber mais sobre o que a Ritual está construindo.
7,21K