DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

Ecco il Digest di Ricerca Rituale di questa settimana, una newsletter che copre le ultime novità nel mondo dei LLM e l'intersezione tra Crypto e AI. Con centinaia di articoli pubblicati settimanalmente, rimanere aggiornati con le ultime novità è impossibile. Noi facciamo la lettura così non dovete farlo voi.

I Token a bassa probabilità sostengono l'esplorazione nell'apprendimento per rinforzo con ricompense verificabili Questo articolo scopre che il collo di bottiglia dei modelli di ragionamento può derivare dall'eliminazione dei token esplorativi a bassa probabilità (che vengono definiti Scintille di Ragionamento).

Introdurranno Lp-Reg per preservare i preziosi token a bassa probabilità tramite regolarizzazione. Lp-Reg scarta prima i token rumorosi a bassa probabilità e poi ridistribuisce la massa di probabilità tra i candidati rimanenti. Su 5 benchmark matematici su Qwen3-14B, migliorano del 2,66%.

Sul Ruolo del Campionamento della Temperatura nella Scalabilità al Momento del Test La recente scalabilità della Scalabilità al Momento del Test (TTS) ha aumentato il Pass@k a 1024, ma abbiamo raggiunto il limite delle prestazioni del TTS? I documenti mostrano, attraverso il campionamento della temperatura, che possiamo ulteriormente scalare il TTS.

I documenti mostrano che la temperatura può essere una nuova dimensione per la scalatura durante il test. Attraverso esperimenti su Qwen3 (0.6B, 1.7B, 4B, 8B) e cinque benchmark, la scalatura della temperatura produce 7.3 punti rispetto al TTS a temperatura singola. Hanno anche progettato un metodo efficiente per la T-scaling.

DiffuSpec: Sbloccare i modelli di linguaggio di diffusione per la decodifica speculativa I modelli di diffusione come redattori per la decodifica speculativa sono una buona scelta grazie a un throughput di proposta di token per passo più elevato e a una qualità di proposta più forte.

Tuttavia, i modelli di diffusione soffrono di problemi legati all'allineamento causale e alla lunghezza del draft. Per affrontare questi problemi, il documento presenta DiffuSpec, un metodo senza addestramento. In vari compiti, offre un'accelerazione fino a 3× in termini di tempo reale, superando altre basi senza addestramento.

Generando dati sintetici di vari gradi di difficoltà di leggibilità, scoprono che la leggibilità non è la chiave per la coerenza nei piccoli modelli linguistici. I loro risultati suggeriscono che la semplicità statistica è un predittore più forte della capacità di apprendimento nei SLM.

Seguici su @ritualdigest per ulteriori informazioni su tutto ciò che riguarda la ricerca crypto x AI, e @ritualnet per saperne di più su cosa sta costruendo Ritual.

1,46K

Principali

Ranking

Preferiti