Hier is de Ritual Research Digest van deze week, een nieuwsbrief die de laatste ontwikkelingen in de wereld van LLM's en de kruising van Crypto x AI behandelt. Met honderden gepubliceerde artikelen per week is het onmogelijk om bij te blijven met het laatste nieuws. Wij doen het lezen zodat jij dat niet hoeft te doen.
Dit document stelt de vragen: Wat te verifiëren? Hoe te verifiëren? En waarom überhaupt verifiëren? Ze concluderen dat de waarde van verificatie afhangt van het niet hebben van een te rigide handhaving die redelijke oplossingen uitsluit, terwijl het volledig negeren van verificatie ervoor zorgt dat gegevens van lage kwaliteit de overhand krijgen.
Variatie in Verificatie: Begrip van Verificatie Dynamiek in Grote Taalmodellen Het paper bestudeert factoren die de succes van verificatie beïnvloeden langs - probleem moeilijkheid - generatiecapaciteit van generators - generatiecapaciteit van verifiers.
Ze ontdekken dat: - Verifiers eerder correcte oplossingen herkennen bij gemakkelijke problemen - Fouten gemaakt door zwakke generators gemakkelijker te detecteren zijn dan die gemaakt door sterke generators - De generatiecapaciteit van de verifier correleert met de prestaties bij een probleem met een bepaalde moeilijkheidsgraad.
Versterkend leren op pre-trainingsdata Het paper stelt RLPT voor, dat versterkend leren opschaalt op pre-trainingsdata. Ze stellen een doelstelling voor redeneren over het volgende segment voor, die LLM's beloont voor het correct voorspellen van het volgende segment gegeven de voorafgaande context.
Uitgebreide experimenten op algemeen domein en wiskundig redeneren tonen aan dat RLPT de prestaties aanzienlijk verbetert en een gunstige schaaltrend vertoont, en verder aantonen dat RLPT een sterke basis biedt voor de daaropvolgende RLVR.
ARE: Schalen van Agent Omgevingen en Evaluaties Dit paper stelt Meta Agents Research Environments (ARE) voor, een platform dat orkestraties, creatie van omgevingen en verbinding van apps ondersteunt voor agentontwikkeling en evaluatie.
Het document introduceert ook Gaia2, een evaluatie voor agenten. Gaia2 bestaat uit 1.120 verifieerbare, geannoteerde scenario's die zich afspelen in een mobiele omgeving, die een smartphone nabootst met apps zoals e-mail, berichten en agenda. Ze ontdekken dat gpt-5 het beste presteert.
Volg ons @ritualdigest voor meer over alles wat met crypto x AI-onderzoek te maken heeft, en @ritualnet om meer te leren over wat Ritual aan het bouwen is.
7,21K