Đây là bản Digest Nghiên cứu Ritual của tuần này, một bản tin bao quát những điều mới nhất trong thế giới LLM và giao thoa giữa Crypto x AI. Với hàng trăm tài liệu được công bố hàng tuần, việc cập nhật những điều mới nhất là điều không thể. Chúng tôi làm việc đọc để bạn không phải làm.
Bài báo này đặt ra câu hỏi: Cần xác minh điều gì? Làm thế nào để xác minh? Và tại sao lại cần xác minh? Họ nhận thấy rằng giá trị của việc xác minh phụ thuộc vào việc không có sự thực thi quá cứng nhắc dẫn đến việc loại bỏ các giải pháp hợp lý, trong khi việc hoàn toàn bỏ qua xác minh cho phép dữ liệu chất lượng thấp chiếm ưu thế.
Biến đổi trong Xác minh: Hiểu biết về Động lực Xác minh trong các Mô hình Ngôn ngữ Lớn Bài báo nghiên cứu các yếu tố ảnh hưởng đến sự thành công của xác minh theo - độ khó của vấn đề - khả năng tạo ra của các trình tạo - khả năng tạo ra của các trình xác minh.
Họ nhận thấy rằng: - Các xác thực viên có khả năng nhận ra các giải pháp đúng trên các vấn đề dễ hơn - Các lỗi do các trình tạo yếu gây ra dễ phát hiện hơn so với các lỗi do các trình tạo mạnh gây ra - Khả năng tạo ra của xác thực viên có mối tương quan với hiệu suất trong độ khó của vấn đề.
Học Tăng Cường trên Dữ Liệu Tiền Đào Tạo Bài báo đề xuất RLPT, mở rộng Học Tăng Cường trên dữ liệu tiền đào tạo. Họ đề xuất một mục tiêu lý luận đoạn tiếp theo, thưởng cho các Mô Hình Ngôn Ngữ Lớn (LLMs) khi dự đoán đúng đoạn tiếp theo dựa trên ngữ cảnh trước đó.
Các thí nghiệm rộng rãi về lĩnh vực chung và lý luận toán học cho thấy RLPT cải thiện đáng kể hiệu suất và thể hiện xu hướng mở rộng thuận lợi, và hơn nữa chứng minh rằng RLPT cung cấp một nền tảng vững chắc cho RLVR tiếp theo.
ARE: Mở rộng Môi trường và Đánh giá Đại lý Bài báo này đề xuất Môi trường Nghiên cứu Đại lý Meta (ARE), một nền tảng hỗ trợ việc điều phối, tạo ra các môi trường và kết nối các ứng dụng cho việc phát triển và đánh giá đại lý.
Bài báo cũng giới thiệu Gaia2, một đánh giá cho các tác nhân. Gaia2 bao gồm 1.120 kịch bản có thể xác minh và được chú thích diễn ra trong môi trường Di động, mô phỏng một chiếc smartphone với các ứng dụng như email, nhắn tin và lịch. Họ nhận thấy rằng gpt-5 hoạt động tốt nhất.
Theo dõi chúng tôi @ritualdigest để biết thêm về tất cả các vấn đề liên quan đến nghiên cứu crypto x AI, và @ritualnet để tìm hiểu thêm về những gì Ritual đang xây dựng.
7,21K