Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ecco il Digest di Ricerca Rituale di questa settimana, una newsletter che copre le ultime novità nel mondo dei LLM e l'intersezione tra Crypto e AI.
Con centinaia di articoli pubblicati settimanalmente, rimanere aggiornati con le ultime novità è impossibile. Noi facciamo la lettura così non dovete farlo voi.

I Token a bassa probabilità sostengono l'esplorazione nell'apprendimento per rinforzo con ricompense verificabili
Questo articolo scopre che il collo di bottiglia dei modelli di ragionamento può derivare dall'eliminazione dei token esplorativi a bassa probabilità (che vengono definiti Scintille di Ragionamento).

Introdurranno Lp-Reg per preservare i preziosi token a bassa probabilità tramite regolarizzazione. Lp-Reg scarta prima i token rumorosi a bassa probabilità e poi ridistribuisce la massa di probabilità tra i candidati rimanenti.
Su 5 benchmark matematici su Qwen3-14B, migliorano del 2,66%.

Sul Ruolo del Campionamento della Temperatura nella Scalabilità al Momento del Test
La recente scalabilità della Scalabilità al Momento del Test (TTS) ha aumentato il Pass@k a 1024, ma abbiamo raggiunto il limite delle prestazioni del TTS? I documenti mostrano, attraverso il campionamento della temperatura, che possiamo ulteriormente scalare il TTS.

I documenti mostrano che la temperatura può essere una nuova dimensione per la scalatura durante il test. Attraverso esperimenti su Qwen3 (0.6B, 1.7B, 4B, 8B) e cinque benchmark, la scalatura della temperatura produce 7.3 punti rispetto al TTS a temperatura singola. Hanno anche progettato un metodo efficiente per la T-scaling.


DiffuSpec: Sbloccare i modelli di linguaggio di diffusione per la decodifica speculativa
I modelli di diffusione come redattori per la decodifica speculativa sono una buona scelta grazie a un throughput di proposta di token per passo più elevato e a una qualità di proposta più forte.

Tuttavia, i modelli di diffusione soffrono di problemi legati all'allineamento causale e alla lunghezza del draft.
Per affrontare questi problemi, il documento presenta DiffuSpec, un metodo senza addestramento. In vari compiti, offre un'accelerazione fino a 3× in termini di tempo reale, superando altre basi senza addestramento.

Generando dati sintetici di vari gradi di difficoltà di leggibilità, scoprono che la leggibilità non è la chiave per la coerenza nei piccoli modelli linguistici.
I loro risultati suggeriscono che la semplicità statistica è un predittore più forte della capacità di apprendimento nei SLM.

Seguici su @ritualdigest per ulteriori informazioni su tutto ciò che riguarda la ricerca crypto x AI, e
@ritualnet per saperne di più su cosa sta costruendo Ritual.
1,46K
Principali
Ranking
Preferiti