Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Gặp gỡ Agent Bake-Off: các bài kiểm tra mù bên cạnh cho các tác nhân lập trình như Claude Code, @cursor_ai, @AmpCode, @FactoryAI, Codex, và nhiều hơn nữa.
Chúng tôi đã xây dựng các tiêu chuẩn thực tế lớn nhất cho các tác nhân lập trình, và chúng tôi rất vui mừng được chia sẻ một cái nhìn sớm về công cụ cộng đồng mở của chúng tôi.
Dữ liệu sử dụng thực tế về cách các đại lý được sử dụng và mua sắm sẽ trở nên quan trọng hơn khi các đại lý trở nên phổ biến.
Chúng tôi muốn bất kỳ ai cũng có thể thực hiện các so sánh công bằng, đóng góp vào bảng xếp hạng công khai, và định hình hệ sinh thái dựa trên sở thích thực tế.
Thử nghiệm tại đây:
Bây giờ thật sự rất đơn giản:
- chọn một kho công khai đã được thiết lập sẵn
- nhập một nhiệm vụ
- chúng tôi chạy nó trên hai tác nhân ẩn danh với cùng một ngữ cảnh
Một số nhiệm vụ có thể mất một chút thời gian, vì vậy bạn có thể tùy chọn gửi email của mình để nhận thông báo khi kết quả đã sẵn sàng.

Khi nó hoàn thành, bạn sẽ nhận được:
- các đầu ra và sự khác biệt bên cạnh nhau
- siêu dữ liệu như ghi chú lý do, công cụ đã sử dụng và thời gian đã dành
- một cuộc bỏ phiếu mù để chọn kết quả tốt hơn
Các phiếu bầu và lượt chạy của bạn sẽ góp phần vào bảng xếp hạng cộng đồng công khai.

Đây vẫn là một phiên bản rất sớm, và chúng tôi rất hào hứng để xem điều gì hữu ích cho mọi người.
Một số lĩnh vực mà chúng tôi đang khám phá là: giao diện người dùng/trải nghiệm người dùng tốt hơn cho việc xem xét công việc tác động song song trông như thế nào, siêu dữ liệu và nhiệm vụ nào là có giá trị, v.v.
*Đặc biệt* cho việc sử dụng trong thế giới thực.
Chúng tôi cũng sẽ liên tục cập nhật Agent Bake-Off để thêm nhiều đại lý tiên phong hơn, các nhóm đại lý khác (đại lý xem xét PR, đại lý bảo mật/giám sát, v.v.), xem liệu mọi người có muốn khả năng mang theo các kho công khai/tư nhân của riêng họ hay không, v.v.
Chúng tôi đang nỗ lực xây dựng các tiêu chuẩn và bảng xếp hạng lớn nhất trong thế giới thực cho các tác nhân. Agent Bake-Off là một bước nhỏ đầu tiên.
Xin hãy thử nghiệm, bỏ phiếu và cho chúng tôi phản hồi về những gì bạn thấy hữu ích!!!
14,85K
Hàng đầu
Thứ hạng
Yêu thích

