Sklep DApp | Centrum Web3 dla wydarzeń i gier

Dziś w @OpenAI osiągnęliśmy kamień milowy, który wielu uważało za odległy o lata: złoty medal na poziomie IMO 2025 z ogólnym uzasadnieniem LLM - w tych samych limitach czasowych co ludzie, bez narzędzi. Choć brzmi to niesamowicie, jest jeszcze ważniejsze niż nagłówek 🧵

Typowo w przypadku tych wyników AI, jak w Go/Dota/Poker/Dyplomacji, badacze spędzają lata, tworząc AI, które opanowuje jedną wąską dziedzinę i niewiele więcej. Ale to nie jest model specyficzny dla IMO. To reasoning LLM, który włącza nowe eksperymentalne techniki ogólnego przeznaczenia.

Co więc się zmieniło? Opracowaliśmy nowe techniki, które sprawiają, że LLM-y są znacznie lepsze w trudnych do weryfikacji zadaniach. IMO problemy były idealnym wyzwaniem dla tego: dowody mają długość stron i zajmują ekspertom godziny na ocenę. Porównaj to z AIME, gdzie odpowiedzi to po prostu liczba całkowita od 0 do 999.

Ten model myśli przez *długi* czas. o1 myślał przez sekundy. Głębokie badania przez minuty. Ten myśli przez godziny. Co ważne, jest również bardziej efektywny w swoim myśleniu. I jest wiele miejsca, aby jeszcze bardziej zwiększyć obliczenia i efektywność w czasie testu.

Warto zastanowić się, jak szybki był postęp AI, szczególnie w matematyce. W 2024 roku laboratoria AI używały matematyki na poziomie szkoły podstawowej (GSM8K) jako oceny w swoich wydaniach modeli. Od tego czasu osiągnęliśmy nasycenie benchmarku MATH (szkoła średnia), potem AIME, a teraz jesteśmy na poziomie złota IMO.

Gdzie to prowadzi? Tak szybko, jak postęp w dziedzinie AI był ostatnio, w pełni oczekuję, że trend ten będzie się utrzymywał. Co ważne, myślę, że jesteśmy blisko momentu, w którym AI znacznie przyczyni się do odkryć naukowych. Istnieje duża różnica między AI, które jest nieco poniżej najlepszej ludzkiej wydajności, a tym, które jest nieco powyżej.

Był to mały wysiłek zespołowy prowadzony przez @alexwei_. Wziął pomysł badawczy, w który niewielu wierzyło, i wykorzystał go, aby osiągnąć wynik, o którym mniej myślało. Nie byłoby to również możliwe bez wieloletnich badań + inżynierii prowadzonych przez wielu pracowników @OpenAI i szerszej społeczności AI.

Kiedy pracujesz w laboratorium na czołowej pozycji, zazwyczaj wiesz, gdzie znajdują się najnowsze możliwości, miesiące przed innymi. Ale ten wynik jest zupełnie nowy, wykorzystujący niedawno opracowane techniki. To było zaskoczenie nawet dla wielu badaczy w OpenAI. Dziś wszyscy mogą zobaczyć, gdzie znajduje się ta granica.