Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Berikut adalah Ritual Research Digest minggu ini, buletin yang mencakup yang terbaru di dunia LLM dan persimpangan Crypto x AI.
Dengan ratusan makalah yang diterbitkan setiap minggu, tidak mungkin mengikuti perkembangan terbaru. Kami melakukan pembacaan sehingga Anda tidak perlu melakukannya.

Tidak Semua bit Sama: Strategi Pengoptimalan Memori Tergantung Skala untuk Model Penalaran
Penulis menyelidiki prinsip-prinsip kompresi memori untuk model penalaran. Mereka mempertimbangkan ukuran model, presisi, panjang gen, dan kompresi cache KV.

Mereka bertanya: Di bawah anggaran memori tetap, apa keseimbangan faktor untuk memaksimalkan akurasi pada tugas penalaran?
Lebih dari 1700 eksperimen pada keluarga Qwen3 di AIME dan GPQA-Diamond. Mereka menemukan bahwa tidak ada strategi universal, tetapi mereka memiliki rekomendasi khusus ukuran.

Seni Menskalakan Komputasi Pembelajaran Penguatan untuk LLM
Karya ini mengeksplorasi ilmu penskalaan RL & mengembangkan ScaleRL, resep yang dapat diskalakan secara dapat diprediksi dengan komputasi. Desainnya didasarkan pada studi empiris tentang penskalaan RL lebih dari 400.000 jam GPU.

Mereka menemukan tiga prinsip utama:
• Langit-langit Kinerja RL Tidak Universal
• Pelajaran pahit juga berlaku untuk RL
• Intervensi umum yang dianggap meningkatkan kinerja puncak terutama menyesuaikan efisiensi komputasi, sementara tidak mengubah plafon kinerja secara signifikan.

LLM Bisa Mendapatkan "Pembusukan Otak"!
Makalah ini mempelajari apakah LLM bisa mendapatkan pembusukan otak, yaitu, jika dilatih pada teks web sampah, apakah itu memiliki penurunan kognitif yang bertahan lama pada LLM?
Mereka bereksperimen dengan membangun kumpulan data dari media sosial (Twitter/X) melalui dua metrik sampah.

Tolok ukur komparatif antara kumpulan data bersih dan sampah menunjukkan bahwa intervensi sampah dikaitkan dengan penurunan kognitif dalam penalaran, konteks panjang, dan norma etika.
Kepribadian gelap LLM muncul dengan intervensi sampah M1, menimbulkan masalah keamanan yang signifikan.


Jangan Buang Model Terlatih Anda
Penyelarasan/RL telah menjadi bagian integral dari pelatihan LLM tetapi memiliki beberapa kelemahan, yang diunggulkan oleh model dasar yang telah dilatih sebelumnya. Makalah ini membahas bagaimana memanfaatkan manfaat dari kedua dunia dan mengembangkan sistem AI yang dapat beradaptasi.

Mereka mengusulkan Pembuatan Pengalihan, di mana beberapa pos pemeriksaan model dipilih secara dinamis untuk pembuatan.
Eksperimen dengan 8 garis besar kolaborasi dan 18 himpunan data menunjukkan bahwa pendekatan kolaborasi model mengungguli semua model individu pada 16 dari 18 himpunan data.


Bagaimana Pembelajaran Penguatan Setelah Prediksi Token Berikutnya Memfasilitasi Pembelajaran
Makalah ini mempelajari bagaimana model autoregresif berhasil dalam tugas prediksi yang menantang dengan mengikuti resep pelatihan ini (prediksi token berikutnya diikuti dengan pembelajaran penguatan).

Untuk eksperimen, mereka berasumsi bahwa data pra-pelatihan berisi demonstrasi langka untuk tugas yang menarik.
Berdasarkan ini, mereka menjelaskan:
- Kesulitan generalisasi selama pra-pelatihan
- Bagaimana RL mengarah pada peningkatan yang cepat
- Apa yang menyebabkan respons yang lebih lama?

Ikuti kami @ritualdigest untuk informasi lebih lanjut tentang semua hal tentang penelitian crypto x AI, dan
@ritualnet untuk mempelajari lebih lanjut tentang apa yang dibangun Ritual.
260
Teratas
Peringkat
Favorit

