Cửa hàng DApp | Trung tâm Web3 với các sự kiện và trò chơi

Hôm nay, chúng tôi tại @OpenAI đã đạt được một cột mốc quan trọng mà nhiều người coi là nhiều năm nữa: thành tích cấp huy chương vàng trên IMO 2025 với LLM lý luận chung — trong cùng giới hạn thời gian như con người, không có công cụ. Nghe có vẻ đáng chú ý, nó thậm chí còn quan trọng hơn tiêu đề 🧵

Thông thường, đối với những kết quả AI như trong Go/Dota/Poker/Diplomacy, các nhà nghiên cứu mất nhiều năm để tạo ra một AI thành thạo trong một lĩnh vực hẹp và không làm được gì khác. Nhưng đây không phải là một mô hình cụ thể cho IMO. Đây là một LLM lý luận kết hợp các kỹ thuật tổng quát mới đang thử nghiệm.

Vậy điều gì khác biệt? Chúng tôi đã phát triển những kỹ thuật mới giúp LLMs tốt hơn rất nhiều trong các nhiệm vụ khó xác minh. Theo ý kiến của tôi, các bài toán là thử thách hoàn hảo cho điều này: các chứng minh dài hàng trang và mất hàng giờ cho các chuyên gia để chấm điểm. So sánh điều đó với AIME, nơi mà câu trả lời chỉ đơn giản là một số nguyên từ 0 đến 999.

Mô hình này cũng suy nghĩ trong một *thời gian dài*. o1 suy nghĩ trong vài giây. Nghiên cứu sâu trong vài phút. Cái này suy nghĩ trong vài giờ. Quan trọng là, nó cũng hiệu quả hơn trong việc suy nghĩ. Và còn rất nhiều không gian để đẩy mạnh tính toán và hiệu quả trong thời gian kiểm tra.

Thật đáng để suy ngẫm về tốc độ tiến bộ của AI, đặc biệt là trong toán học. Vào năm 2024, các phòng thí nghiệm AI đã sử dụng toán học tiểu học (GSM8K) như một tiêu chí đánh giá trong các bản phát hành mô hình của họ. Kể từ đó, chúng ta đã bão hòa tiêu chuẩn MATH (trung học), sau đó là AIME, và giờ đây đã đạt được huy chương vàng IMO.

Điều này sẽ đi đến đâu? Mặc dù tiến bộ gần đây của AI rất nhanh chóng, tôi hoàn toàn mong đợi xu hướng này sẽ tiếp tục. Quan trọng là, tôi nghĩ rằng chúng ta đang gần đến lúc AI có thể đóng góp đáng kể vào việc khám phá khoa học. Có một sự khác biệt lớn giữa AI chỉ thấp hơn hiệu suất của con người hàng đầu và AI chỉ cao hơn một chút.

Đây là một nỗ lực nhóm nhỏ do @alexwei_ dẫn đầu. Ông đã lấy một ý tưởng nghiên cứu mà ít người tin tưởng và sử dụng nó để đạt được kết quả mà ít người nghĩ đến hơn. Điều này cũng sẽ không thể thực hiện được nếu không có nhiều năm nghiên cứu + kỹ thuật từ nhiều người tại @OpenAI và cộng đồng AI rộng lớn hơn.

Khi bạn làm việc tại một phòng thí nghiệm tiên phong, bạn thường biết được khả năng tiên phong trước nhiều tháng so với những người khác. Nhưng kết quả này hoàn toàn mới, sử dụng các kỹ thuật vừa được phát triển gần đây. Nó đã gây bất ngờ ngay cả với nhiều nhà nghiên cứu tại OpenAI. Hôm nay, mọi người đều có cơ hội thấy được đâu là ranh giới.