Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Voici le Digest de Recherche Rituel de cette semaine, une newsletter couvrant les dernières nouvelles dans le monde des LLM et l'intersection entre Crypto et AI.
Avec des centaines d'articles publiés chaque semaine, il est impossible de rester à jour avec les dernières informations. Nous faisons la lecture pour que vous n'ayez pas à le faire.

Ce document pose la question : Que vérifier ? Comment vérifier ? Et pourquoi vérifier du tout ?
Ils constatent que la valeur de la vérification dépend de l'absence d'une application trop rigide qui rejette des solutions raisonnables, tandis qu'ignorer complètement la vérification permet aux données de faible qualité de dominer.
Variation dans la Vérification : Comprendre les Dynamiques de Vérification dans les Grands Modèles de Langage
Cet article étudie les facteurs influençant le succès de la vérification selon
- la difficulté du problème
- la capacité de génération des générateurs
- la capacité de génération des vérificateurs.

Ils constatent que :
- Les vérificateurs sont plus susceptibles de reconnaître des solutions correctes sur des problèmes faciles
- Les erreurs commises par des générateurs faibles sont plus faciles à détecter que celles commises par des générateurs forts
- La capacité de génération du vérificateur est corrélée à la performance dans une difficulté de problème.
Apprentissage par renforcement sur des données de pré-entraînement
L'article propose RLPT, qui étend l'apprentissage par renforcement sur des données de pré-entraînement. Ils proposent un objectif de raisonnement sur le segment suivant qui récompense les LLM pour avoir prédit correctement le segment suivant en fonction du contexte précédent.

Des expériences approfondies sur le raisonnement général et mathématique montrent que RLPT améliore considérablement les performances et présente une tendance de mise à l'échelle favorable, et démontrent en outre que RLPT fournit une base solide pour le RLVR ultérieur.

ARE : Mise à l'échelle des environnements et évaluations d'agents
Cet article propose les Environnements de Recherche sur les Agents Métas (ARE), une plateforme qui prend en charge les orchestrations, la création d'environnements et la connexion d'applications pour le développement et l'évaluation d'agents.

Le document présente également Gaia2, une évaluation pour les agents. Gaia2 est composé de 1 120 scénarios vérifiables et annotés qui se déroulent dans un environnement mobile, imitant un smartphone avec des applications telles que l'email, la messagerie et le calendrier. Ils constatent que gpt-5 obtient les meilleures performances.

Suivez-nous @ritualdigest pour en savoir plus sur tout ce qui concerne la crypto et la recherche en IA, et @ritualnet pour en apprendre davantage sur ce que Ritual est en train de construire.
7,2K
Meilleurs
Classement
Favoris