Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Đây là bản Digest Nghiên cứu Ritual của tuần này, một bản tin bao quát những điều mới nhất trong thế giới LLM và giao thoa giữa Crypto x AI.
Với hàng trăm tài liệu được công bố hàng tuần, việc cập nhật những điều mới nhất là điều không thể. Chúng tôi làm việc đọc để bạn không phải làm.

Không phải tất cả các bit đều như nhau: Chiến lược tối ưu hóa bộ nhớ phụ thuộc vào quy mô cho các mô hình suy luận
Các tác giả nghiên cứu các nguyên tắc nén bộ nhớ cho các mô hình suy luận. Họ xem xét kích thước mô hình, độ chính xác, độ dài gen và nén bộ nhớ KV.

Họ hỏi: Dưới một ngân sách bộ nhớ cố định, sự cân bằng của các yếu tố để tối đa hóa độ chính xác trong các nhiệm vụ suy luận là gì?
Hơn 1700 thí nghiệm trên gia đình Qwen3 trên AIME và GPQA-Diamond. Họ nhận thấy rằng không có chiến lược chung, nhưng họ có những khuyến nghị cụ thể theo kích thước.

Nghệ thuật mở rộng tính toán Học Tăng cường cho LLMs
Công trình này khám phá khoa học về việc mở rộng RL và phát triển ScaleRL, một công thức mở rộng một cách dự đoán với tính toán. Thiết kế được dựa trên một nghiên cứu thực nghiệm về việc mở rộng RL trong 400.000 giờ GPU.

Họ tìm thấy ba nguyên tắc chính:
• Giới hạn hiệu suất RL không phải là phổ quát
• Bài học đắng cũng áp dụng cho RL
• Các can thiệp phổ biến được cho là cải thiện hiệu suất tối đa chủ yếu điều chỉnh hiệu quả tính toán, trong khi không thay đổi đáng kể giới hạn hiệu suất.

LLMs có thể bị "não hỏng"!
Bài báo này nghiên cứu xem liệu LLMs có thể bị não hỏng hay không, tức là nếu được đào tạo trên văn bản rác từ web, liệu nó có gây ra sự suy giảm nhận thức lâu dài ở LLMs không?
Họ thực hiện thí nghiệm bằng cách xây dựng các tập dữ liệu từ mạng xã hội (Twitter/X) thông qua hai chỉ số rác.

Việc so sánh giữa các tập dữ liệu sạch và rác cho thấy can thiệp rác liên quan đến sự suy giảm nhận thức trong lý luận, bối cảnh dài và các chuẩn mực đạo đức.
Các tính cách tối tăm của LLMs xuất hiện với can thiệp rác M1, gây ra những lo ngại đáng kể về an toàn.


Đừng vứt bỏ mô hình đã được huấn luyện trước
Sự căn chỉnh/RL đã trở thành một phần không thể thiếu trong việc huấn luyện LLM nhưng có một số nhược điểm mà các mô hình cơ sở đã được huấn luyện trước lại vượt trội. Bài báo này xem xét cách khai thác lợi ích của cả hai thế giới và phát triển các hệ thống AI có thể thích ứng.

Họ đề xuất Switch Generation, nơi nhiều điểm kiểm tra mô hình được chọn lựa một cách linh hoạt cho việc tạo ra.
Các thí nghiệm với 8 cơ sở hợp tác và 18 tập dữ liệu cho thấy rằng các phương pháp hợp tác mô hình vượt trội hơn tất cả các mô hình cá nhân trên 16 trong số 18 tập dữ liệu.


Cách Học Tăng Cường Sau Dự Đoán Token Tiếp Theo Hỗ Trợ Việc Học
Bài báo nghiên cứu cách mà các mô hình tự hồi quy thành công trong các nhiệm vụ dự đoán đầy thách thức bằng cách tuân theo công thức đào tạo này (dự đoán token tiếp theo sau đó là học tăng cường).

Đối với các thí nghiệm, họ giả định rằng dữ liệu tiền huấn luyện chứa các ví dụ hiếm cho một nhiệm vụ quan tâm.
Dựa trên điều này, họ giải thích:
- Khó khăn trong việc tổng quát trong quá trình tiền huấn luyện
- Cách mà RL dẫn đến sự cải thiện nhanh chóng
- Điều gì dẫn đến các phản hồi dài hơn?

Theo dõi chúng tôi @ritualdigest để biết thêm về tất cả các vấn đề liên quan đến nghiên cứu crypto x AI, và
@ritualnet để tìm hiểu thêm về những gì Ritual đang xây dựng.
459
Hàng đầu
Thứ hạng
Yêu thích