Berikut adalah Ritual Research Digest minggu ini, buletin yang mencakup yang terbaru di dunia LLM dan persimpangan Crypto x AI. Dengan ratusan makalah yang diterbitkan setiap minggu, tidak mungkin mengikuti perkembangan terbaru. Kami melakukan pembacaan sehingga Anda tidak perlu melakukannya.
Makalah ini bertanya : Apa yang harus diverifikasi? Bagaimana cara memverifikasi? Dan Mengapa memverifikasi sama sekali? Mereka menemukan bahwa nilai verifikasi bergantung pada tidak memiliki penegakan yang terlalu kaku yang membuang solusi yang masuk akal, sementara mengabaikan verifikasi sama sekali memungkinkan data berkualitas rendah untuk mendominasi.
Variasi dalam Verifikasi: Memahami Dinamika Verifikasi dalam Model Bahasa Besar Makalah ini mempelajari faktor-faktor yang mempengaruhi keberhasilan verifikasi - kesulitan masalah - kemampuan pembangkit generator - Kemampuan pembuatan verifikat.
Mereka menemukan bahwa: - Verifikator lebih cenderung mengenali solusi yang benar pada masalah mudah - Kesalahan yang dibuat oleh generator yang lemah lebih mudah dideteksi daripada yang dibuat oleh generator yang kuat - Kemampuan pembuatan verifikator berkorelasi dengan kinerja dalam kesulitan masalah.
Reinforcement Learning pada Data Pra-Pelatihan Makalah ini mengusulkan RLPT, yang menskalakan RL pada data pra-pelatihan. Mereka mengusulkan tujuan penalaran segmen berikutnya yang memberi penghargaan kepada LLM untuk memprediksi segmen berikutnya dengan benar mengingat konteks sebelumnya.
Eksperimen ekstensif pada domain umum dan penalaran matematis menunjukkan bahwa RLPT secara substansial meningkatkan kinerja dan menunjukkan tren penskalaan yang menguntungkan, dan selanjutnya menunjukkan bahwa RLPT memberikan dasar yang kuat untuk RLVR berikutnya.
ADALAH: Meningkatkan Lingkungan Agen dan Evaluasi Makalah ini mengusulkan Meta Agents Research Environments (ARE), sebuah platform yang mendukung orkestrasi, pembuatan lingkungan, dan koneksi aplikasi untuk pengembangan dan evaluasi agen.
Makalah ini juga memperkenalkan Gaia2, evaluasi untuk agen. Gaia2 terdiri dari 1.120 skenario beranotasi yang dapat diverifikasi yang terjadi di lingkungan Seluler, meniru smartphone dengan aplikasi seperti email, perpesanan, dan kalender. Mereka menemukan bahwa gpt-5 tinggi berkinerja terbaik.
Ikuti kami @ritualdigest untuk informasi lebih lanjut tentang semua hal tentang penelitian crypto x AI, dan @ritualnet untuk mempelajari lebih lanjut tentang apa yang dibangun Ritual.
7,2K