Voici le Digest de Recherche Rituel de cette semaine, une newsletter couvrant les dernières nouvelles dans le monde des LLM et l'intersection entre Crypto et AI. Avec des centaines d'articles publiés chaque semaine, il est impossible de rester à jour avec les dernières informations. Nous faisons la lecture pour que vous n'ayez pas à le faire.
Tous les bits ne sont pas égaux : Stratégies d'optimisation de la mémoire dépendantes de l'échelle pour les modèles de raisonnement Les auteurs examinent les principes de la compression de la mémoire pour les modèles de raisonnement. Ils prennent en compte la taille du modèle, la précision, la longueur de génération et la compression du cache KV.
Ils demandent : Sous un budget mémoire fixe, quel est l'équilibre des facteurs pour maximiser la précision sur les tâches de raisonnement ? Plus de 1700 expériences sur la famille Qwen3 sur AIME et GPQA-Diamond. Ils constatent qu'il n'existe pas de stratégie universelle, mais qu'ils ont des recommandations spécifiques à la taille.
L'art de l'échelle de l'apprentissage par renforcement pour les LLMs Ce travail explore la science de l'échelle de l'apprentissage par renforcement et développe ScaleRL, une recette qui s'échelonne de manière prévisible avec le calcul. La conception est fondée sur une étude empirique de l'échelle de l'apprentissage par renforcement sur 400 000 heures GPU.
Ils trouvent trois principes clés : • Les plafonds de performance en RL ne sont pas universels • La leçon amère s'applique également au RL • Les interventions courantes censées améliorer la performance de pointe ajustent principalement l'efficacité de calcul, sans changer considérablement le plafond de performance.
Les LLM peuvent avoir des "problèmes de cerveau" ! Cet article étudie si les LLM peuvent avoir des problèmes de cerveau, c'est-à-dire si, entraînés sur des textes web de mauvaise qualité, ils subissent un déclin cognitif durable ? Ils expérimentent en construisant des ensembles de données à partir des réseaux sociaux (Twitter/X) via les deux métriques de mauvaise qualité.
L'évaluation comparative entre les ensembles de données propres et les ensembles de données indésirables montre que l'intervention indésirable est associée à des déclins cognitifs dans le raisonnement, le long contexte et les normes éthiques. Les personnalités sombres des LLMs émergent avec l'intervention indésirable M1, soulevant d'importantes préoccupations en matière de sécurité.
Ne jetez pas votre modèle pré-entraîné L'alignement/RL est devenu essentiel pour l'entraînement des LLM, mais présente plusieurs inconvénients, que les modèles de base pré-entraînés excellent à surmonter. Cet article examine comment tirer parti des avantages des deux mondes et développer des systèmes d'IA adaptables.
Ils proposent la Switch Generation, où plusieurs points de contrôle de modèle sont sélectionnés dynamiquement pour la génération. Des expériences avec 8 bases de collaboration et 18 ensembles de données montrent que les approches de collaboration de modèles surpassent tous les modèles individuels sur 16 des 18 ensembles de données.
Comment l'apprentissage par renforcement après la prédiction du prochain jeton facilite l'apprentissage Cet article étudie comment les modèles autorégressifs réussissent dans des tâches de prédiction difficiles en suivant cette recette d'entraînement (prédiction du prochain jeton suivie de l'apprentissage par renforcement).
Pour les expériences, ils supposent que les données de pré-entraînement contiennent des démonstrations rares pour une tâche d'intérêt. Sur cette base, ils expliquent : - La difficulté de généralisation pendant le pré-entraînement - Comment l'apprentissage par renforcement (RL) conduit à une amélioration rapide - Ce qui conduit à des réponses plus longues ?
Suivez-nous @ritualdigest pour en savoir plus sur tout ce qui concerne la crypto et la recherche en IA, et @ritualnet pour en apprendre davantage sur ce que Ritual est en train de construire.
463