Nowy wpis na blogu o asymetrii weryfikacji i "prawie weryfikatora": Asymetria weryfikacji – idea, że niektóre zadania są znacznie łatwiejsze do zweryfikowania niż do rozwiązania – staje się ważną ideą, ponieważ mamy RL, który w końcu działa ogólnie. Świetnymi przykładami asymetrii weryfikacji są takie rzeczy jak łamigłówki sudoku, pisanie kodu dla strony internetowej takiej jak instagram i problemy z BrowseComp (potrzeba ~100 stron internetowych, aby znaleźć odpowiedź, ale łatwo zweryfikować, gdy już masz odpowiedź). Inne zadania mają prawie symetrię weryfikacji, takie jak sumowanie dwóch 900-cyfrowych liczb lub niektóre skrypty przetwarzania danych. Jeszcze inne zadania są znacznie łatwiejsze do zaproponowania wykonalnych rozwiązań niż do ich weryfikacji (np. sprawdzenie faktów w długim eseju lub stwierdzenie nowej diety w stylu "jedz tylko żubry"). Ważną rzeczą, którą należy zrozumieć na temat asymetrii weryfikacji, jest to, że asymetrię można poprawić, wykonując wcześniej pewną pracę. Na przykład, jeśli masz klucz odpowiedzi do problemu matematycznego lub jeśli masz przypadki testowe dla problemu Leetcode. To znacznie zwiększa zestaw problemów z pożądaną asymetrią weryfikacji. "Prawo weryfikatora" mówi, że łatwość trenowania sztucznej inteligencji w celu rozwiązania zadania jest proporcjonalna do tego, jak weryfikowalne jest to zadanie. Wszystkie zadania, które są możliwe do rozwiązania i łatwe do zweryfikowania, zostaną rozwiązane przez sztuczną inteligencję. Możliwość wytrenowania sztucznej inteligencji w celu rozwiązania zadania jest proporcjonalna do tego, czy zadanie ma następujące właściwości: 1. Prawda obiektywna: wszyscy zgadzają się, jakie są dobre rozwiązania 2. Szybka weryfikacja: każde rozwiązanie można zweryfikować w kilka sekund 3. Skalowalność do weryfikacji: wiele rozwiązań może być weryfikowanych jednocześnie 4. Niski poziom hałasu: weryfikacja jest tak ściśle skorelowana z jakością rozwiązania, jak to tylko możliwe 5. Ciągła nagroda: łatwo jest ocenić dobroć wielu rozwiązań dla jednego problemu Jednym z oczywistych przykładów prawa weryfikatora jest fakt, że większość punktów odniesienia proponowanych w sztucznej inteligencji jest łatwa do zweryfikowania i jak dotąd została rozwiązana. Zauważ, że praktycznie wszystkie popularne benchmarki z ostatnich dziesięciu lat spełniają kryteria #1-4; Benchmarki, które nie spełniają kryteriów #1-4, miałyby trudności z uzyskaniem popularności. Dlaczego weryfikowalność jest tak ważna? Ilość uczenia się w sztucznej inteligencji, która ma miejsce, jest maksymalizowana, gdy spełnione są powyższe kryteria; Możesz wykonać wiele kroków gradientowych, z których każdy ma dużo sygnału. Szybkość iteracji ma kluczowe znaczenie – to powód, dla którego postęp w świecie cyfrowym jest o wiele szybszy niż postęp w świecie fizycznym. AlphaEvolve od Google to jeden z najlepszych przykładów wykorzystania asymetrii weryfikacji. Koncentruje się na konfiguracjach, które spełniają wszystkie powyższe kryteria i doprowadził do wielu postępów w matematyce i innych dziedzinach. W odróżnieniu od tego, co robiliśmy w sztucznej inteligencji przez ostatnie dwie dekady, jest to nowy paradygmat, w którym wszystkie problemy są optymalizowane w warunkach, w których zestaw pociągów jest równoważny zestawowi testowemu. Asymetria weryfikacji jest wszędzie i ekscytujące jest rozważanie świata postrzępionej inteligencji, w którym wszystko, co możemy zmierzyć, zostanie rozwiązane.