Aqui está o Ritual Research Digest desta semana, um boletim informativo que cobre as últimas novidades no mundo dos LLMs e a interseção de Crypto x AI. Com centenas de artigos publicados semanalmente, é impossível manter-se atualizado com as últimas novidades. Nós fazemos a leitura para que você não precise.
Este artigo pergunta: O que verificar? Como verificar? E por que verificar? Eles descobrem que o valor da verificação depende de não ter uma aplicação excessivamente rígida que descarte soluções razoáveis, enquanto ignorar completamente a verificação permite que dados de baixa qualidade dominem.
Variação na verificação: Entendendo a dinâmica de verificação em modelos de linguagem grandes O artigo estuda os fatores que influenciam o sucesso da verificação ao longo do - dificuldade do problema - Capacidade de geração de geradores - capacidade de geração de verificadores.
Eles descobrem que: - Os verificadores são mais propensos a reconhecer soluções corretas em problemas fáceis - Erros cometidos por geradores fracos são mais fáceis de detectar do que aqueles cometidos por geradores fortes - A capacidade de geração do verificador se correlaciona com o desempenho em uma dificuldade de problema.
Aprendizado por reforço em dados pré-treinamento O artigo propõe o RLPT, que dimensiona o RL em dados pré-treinamento. Eles propõem um objetivo de raciocínio do próximo segmento que recompensa os LLMs por prever o próximo segmento corretamente, dado o contexto anterior.
Experimentos extensivos sobre raciocínio matemático e de domínio geral mostram que o RLPT melhora substancialmente o desempenho e exibe uma tendência de escala favorável, e demonstram ainda que o RLPT fornece uma base sólida para o RLVR subsequente.
ARE: Escalando ambientes e avaliações de agentes Este artigo propõe o Meta Agents Research Environments (ARE), uma plataforma que suporta orquestrações, criação de ambientes e conexão de aplicativos para desenvolvimento e avaliação de agentes.
O artigo também apresenta o Gaia2, uma avaliação para agentes. O Gaia2 é composto por 1.120 cenários verificáveis e anotados que ocorrem em um ambiente móvel, imitando um smartphone com aplicativos como e-mail, mensagens e calendário. Eles acham que o gpt-5 alto tem melhor desempenho.
Siga-nos @ritualdigest para saber mais sobre todas as pesquisas sobre criptomoedas x IA e @ritualnet para saber mais sobre o que a Ritual está construindo.
7,21K