Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Voici le Digest de Recherche Rituel de cette semaine, une newsletter couvrant les dernières nouvelles dans le monde des LLM et l'intersection entre Crypto et AI.
Avec des centaines d'articles publiés chaque semaine, il est impossible de rester à jour avec les dernières informations. Nous faisons la lecture pour que vous n'ayez pas à le faire.

Les jetons à faible probabilité soutiennent l'exploration dans l'apprentissage par renforcement avec une récompense vérifiable
Cet article constate que le goulot d'étranglement des modèles de raisonnement peut provenir de l'élimination des jetons exploratoires à faible probabilité (qu'ils appellent Étincelles de Raisonnement).

Ils introduisent Lp-Reg pour préserver des jetons précieux à faible probabilité via la régularisation. Lp-Reg commence par éliminer les jetons bruyants à faible probabilité, puis redistribue la masse de probabilité parmi les candidats restants.
Sur 5 benchmarks mathématiques sur Qwen3-14B, ils améliorent de 2,66 %.

Sur le rôle de l'échantillonnage de température dans l'échelle de test à l'heure
Le récent passage à l'échelle de l'échelle de test à l'heure (TTS) a augmenté le Pass@k à 1024, mais avons-nous atteint le plafond de la performance TTS ? Les articles montrent, à travers l'échantillonnage de température, que nous pouvons encore augmenter l'échelle de TTS.

Les documents montrent que la température peut être une nouvelle dimension pour le redimensionnement au moment du test. À travers des expériences sur Qwen3 (0,6B, 1,7B, 4B, 8B) et cinq benchmarks, le redimensionnement de température donne 7,3 points par rapport au TTS à température unique. Ils conçoivent également une méthode efficace pour le T-scaling.


DiffuSpec : Déverrouiller les modèles de langage de diffusion pour le décodage spéculatif
Les modèles de diffusion en tant que rédacteurs pour le décodage spéculatif sont un bon choix en raison d'un meilleur débit de proposition de jetons par étape et d'une qualité de proposition plus forte.

Cependant, les modèles de diffusion souffrent de problèmes liés à l'alignement causal et à la longueur des brouillons.
Pour résoudre ces problèmes, l'article présente DiffuSpec, une méthode sans entraînement. Dans diverses tâches, elle offre jusqu'à 3× d'accélération en temps réel, surpassant d'autres références sans entraînement.

En générant des données synthétiques de différents niveaux de difficulté de lisibilité, ils constatent que la lisibilité n'est pas la clé de la cohérence dans les petits modèles de langage.
Leurs résultats suggèrent que la simplicité statistique est un prédicteur plus fort de l'apprentissage dans les SLM.

Suivez-nous @ritualdigest pour en savoir plus sur tout ce qui concerne la crypto et la recherche en IA, et @ritualnet pour en apprendre davantage sur ce que Ritual est en train de construire.
1,48K
Meilleurs
Classement
Favoris

