Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Hôm nay, chúng tôi tại @OpenAI đã đạt được một cột mốc quan trọng mà nhiều người coi là nhiều năm nữa: thành tích cấp huy chương vàng trên IMO 2025 với LLM lý luận chung — trong cùng giới hạn thời gian như con người, không có công cụ. Nghe có vẻ đáng chú ý, nó thậm chí còn quan trọng hơn tiêu đề 🧵

19 thg 7, 2025
1 / N Tôi rất vui mừng được chia sẻ rằng LLM lý luận thực nghiệm @OpenAI mới nhất của chúng tôi đã đạt được một thách thức lớn lâu dài trong AI: thành tích cấp huy chương vàng trong cuộc thi toán học danh giá nhất thế giới — Olympic Toán quốc tế (IMO).

Thông thường, đối với những kết quả AI như trong Go/Dota/Poker/Diplomacy, các nhà nghiên cứu mất nhiều năm để tạo ra một AI thành thạo trong một lĩnh vực hẹp và không làm được gì khác. Nhưng đây không phải là một mô hình cụ thể cho IMO. Đây là một LLM lý luận kết hợp các kỹ thuật tổng quát mới đang thử nghiệm.
Vậy điều gì khác biệt? Chúng tôi đã phát triển những kỹ thuật mới giúp LLMs tốt hơn rất nhiều trong các nhiệm vụ khó xác minh. Theo ý kiến của tôi, các bài toán là thử thách hoàn hảo cho điều này: các chứng minh dài hàng trang và mất hàng giờ cho các chuyên gia để chấm điểm. So sánh điều đó với AIME, nơi mà câu trả lời chỉ đơn giản là một số nguyên từ 0 đến 999.
Mô hình này cũng suy nghĩ trong một *thời gian dài*. o1 suy nghĩ trong vài giây. Nghiên cứu sâu trong vài phút. Cái này suy nghĩ trong vài giờ. Quan trọng là, nó cũng hiệu quả hơn trong việc suy nghĩ. Và còn rất nhiều không gian để đẩy mạnh tính toán và hiệu quả trong thời gian kiểm tra.

13 thg 9, 2024
O1 của @OpenAI @rao2z @OpenAI suy nghĩ trong vài giây, nhưng chúng tôi nhắm đến các phiên bản tương lai để suy nghĩ trong nhiều giờ, nhiều ngày, thậm chí vài tuần. Chi phí suy luận sẽ cao hơn, nhưng bạn sẽ phải trả chi phí nào cho một loại thuốc ung thư mới? Đối với pin đột phá? Để chứng minh Giả thuyết Riemann? AI có thể không chỉ là chatbot

Thật đáng để suy ngẫm về tốc độ tiến bộ của AI, đặc biệt là trong toán học. Vào năm 2024, các phòng thí nghiệm AI đã sử dụng toán học tiểu học (GSM8K) như một tiêu chí đánh giá trong các bản phát hành mô hình của họ. Kể từ đó, chúng ta đã bão hòa tiêu chuẩn MATH (trung học), sau đó là AIME, và giờ đây đã đạt được huy chương vàng IMO.
Điều này sẽ đi đến đâu? Mặc dù tiến bộ gần đây của AI rất nhanh chóng, tôi hoàn toàn mong đợi xu hướng này sẽ tiếp tục. Quan trọng là, tôi nghĩ rằng chúng ta đang gần đến lúc AI có thể đóng góp đáng kể vào việc khám phá khoa học. Có một sự khác biệt lớn giữa AI chỉ thấp hơn hiệu suất của con người hàng đầu và AI chỉ cao hơn một chút.
Đây là một nỗ lực nhóm nhỏ do @alexwei_ dẫn đầu. Ông đã lấy một ý tưởng nghiên cứu mà ít người tin tưởng và sử dụng nó để đạt được kết quả mà ít người nghĩ đến hơn. Điều này cũng sẽ không thể thực hiện được nếu không có nhiều năm nghiên cứu + kỹ thuật từ nhiều người tại @OpenAI và cộng đồng AI rộng lớn hơn.
Khi bạn làm việc tại một phòng thí nghiệm tiên phong, bạn thường biết được khả năng tiên phong trước nhiều tháng so với những người khác. Nhưng kết quả này hoàn toàn mới, sử dụng các kỹ thuật vừa được phát triển gần đây. Nó đã gây bất ngờ ngay cả với nhiều nhà nghiên cứu tại OpenAI. Hôm nay, mọi người đều có cơ hội thấy được đâu là ranh giới.
1,07M
Hàng đầu
Thứ hạng
Yêu thích