Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Mở rộng RL cho Mô hình Tư duy Tỷ tỷ
Mở rộng RL là khó! Nhưng đội ngũ này có thể đã tìm ra điều gì đó.
Họ giới thiệu Ring-1T, một mô hình lý luận MoE với 1T tham số và ~50B tham số hoạt động cho mỗi token.
Nó được đào tạo với một giai đoạn SFT dài-CoT, một giai đoạn lý luận RL với phần thưởng có thể xác minh, sau đó là một giai đoạn RLHF tổng quát, và giới thiệu ba phần giúp RL quy mô tỷ thực sự hoạt động:
- IcePop để ổn định các cập nhật
- C3PO++ để giữ cho GPU bận rộn dưới ngân sách token
- ASystem để thống nhất ngăn xếp RL có thông lượng cao
Trên các chỉ số, nó dẫn đầu trọng số mở trên AIME-25, HMMT-25, ARC-AGI-1, LiveCodeBench, CodeForces, và ArenaHard v2.
Nó đạt mức huy chương bạc trên IMO-2025 chỉ bằng cách sử dụng lý luận ngôn ngữ tự nhiên.

Hàng đầu
Thứ hạng
Yêu thích