Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Đây là bản Digest Nghiên cứu Ritual của tuần này, một bản tin bao quát những điều mới nhất trong thế giới LLM và giao thoa giữa Crypto x AI.
Với hàng trăm tài liệu được công bố hàng tuần, việc cập nhật những điều mới nhất là điều không thể. Chúng tôi làm việc đọc để bạn không phải làm.

Các Token xác suất thấp duy trì việc khám phá trong học tăng cường với phần thưởng có thể xác minh
Bài báo này cho thấy rằng nút thắt cổ chai của các mô hình lý luận có thể xuất phát từ việc loại bỏ các token khám phá xác suất thấp (họ gọi chúng là Tia Lý Luận).

Họ giới thiệu Lp-Reg để bảo tồn các token có xác suất thấp quý giá thông qua việc điều chỉnh. Lp-Reg trước tiên loại bỏ các token có xác suất thấp ồn ào và sau đó phân phối lại khối lượng xác suất giữa các ứng viên còn lại.
Trên 5 bài kiểm tra toán học trên Qwen3-14B, họ cải thiện được 2.66%.

Về vai trò của việc lấy mẫu nhiệt độ trong việc mở rộng thời gian kiểm tra
Việc mở rộng gần đây của việc mở rộng thời gian kiểm tra (TTS) đã tăng Pass@k lên 1024, nhưng liệu chúng ta đã đạt đến giới hạn hiệu suất của TTS chưa? Các tài liệu cho thấy, thông qua việc lấy mẫu nhiệt độ, rằng chúng ta có thể mở rộng TTS hơn nữa.

Các tài liệu cho thấy nhiệt độ có thể là một chiều mới để điều chỉnh trong thời gian kiểm tra. Thông qua các thí nghiệm trên Qwen3 (0.6B, 1.7B, 4B, 8B) và năm tiêu chuẩn, điều chỉnh nhiệt độ mang lại 7.3 điểm so với TTS với nhiệt độ đơn. Họ cũng thiết kế một phương pháp hiệu quả cho việc điều chỉnh T.


DiffuSpec: Mở khóa các mô hình ngôn ngữ khuếch tán cho việc giải mã suy đoán
Các mô hình khuếch tán như là những người soạn thảo cho việc giải mã suy đoán là một lựa chọn tốt vì có khả năng đề xuất token cao hơn mỗi bước, và chất lượng đề xuất mạnh mẽ hơn.

Tuy nhiên, các mô hình khuếch tán gặp phải vấn đề liên quan đến sự phù hợp nguyên nhân và độ dài bản nháp.
Để giải quyết những vấn đề này, bài báo giới thiệu DiffuSpec, một phương pháp không cần đào tạo. Trên nhiều nhiệm vụ khác nhau, nó mang lại tốc độ nhanh hơn tới 3× so với thời gian thực, vượt trội hơn so với các tiêu chuẩn không cần đào tạo khác.

Bằng cách tạo ra dữ liệu tổng hợp với các mức độ khó đọc khác nhau, họ nhận thấy rằng khả năng đọc không phải là yếu tố chính để đạt được sự mạch lạc trong các mô hình ngôn ngữ nhỏ.
Những phát hiện của họ cho thấy rằng sự đơn giản về mặt thống kê là một yếu tố dự đoán mạnh mẽ hơn về khả năng học hỏi trong SLM.

Theo dõi chúng tôi @ritualdigest để biết thêm về tất cả các vấn đề liên quan đến nghiên cứu crypto x AI, và
@ritualnet để tìm hiểu thêm về những gì Ritual đang xây dựng.
1,48K
Hàng đầu
Thứ hạng
Yêu thích

