Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Penskalaan RL untuk Model Pemikiran Skala Triliunan
Menskalakan RL itu sulit! Tapi tim ini mungkin telah menemukan sesuatu.
Mereka memperkenalkan Ring-1T, model penalaran MoE parameter 1T dengan ~50B parameter aktif per token.
Ini dilatih dengan fase SFT CoT panjang, fase RL penalaran hadiah yang dapat diverifikasi, kemudian fase RLHF umum, dan memperkenalkan tiga bagian yang membuat RL skala triliunan benar-benar berjalan:
- IcePop untuk menstabilkan pembaruan
- C3PO++ untuk membuat GPU tetap sibuk di bawah anggaran token
- ASystem untuk menyatukan tumpukan RL throughput tinggi
Pada benchmark, ia memimpin bobot terbuka pada AIME-25, HMMT-25, ARC-AGI-1, LiveCodeBench, CodeForces, dan ArenaHard v2.
Ini mencapai tingkat medali perak pada IMO-2025 hanya menggunakan penalaran bahasa alami.

Teratas
Peringkat
Favorit