Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
6 tháng sau khi phát hành bài báo của chúng tôi, tôi vẫn nhớ những cuộc tranh luận về việc loại bỏ thuật ngữ chuẩn hóa độ dài trong DrGRPO. Và mọi người dần dần nghĩ rằng DrGRPO chỉ liên quan đến việc loại bỏ độ lệch chuẩn, bỏ qua sự thiên lệch (độ dài) quan trọng và tinh tế nhất mà chúng tôi đã cố gắng chỉ ra cho cộng đồng.
Ngay cả bây giờ, nhiều bài báo (và mã nguồn mở) vẫn chia mất mát gradient chính sách theo độ dài phản hồi—lấy trung bình thay vì tổng...
May mắn thay, với việc triển khai của Tinker làm tham chiếu, tôi hy vọng điều này sẽ thuyết phục hơn cho cộng đồng OSS áp dụng tính toán mất mát RL không thiên lệch.
Rất biết ơn Thinking Machines vì đã mở rộng ranh giới của khoa học mở 🚀

Hàng đầu
Thứ hạng
Yêu thích