In der Ära des Pretrainings war der Internettext entscheidend. Man wollte hauptsächlich eine große, vielfältige und qualitativ hochwertige Sammlung von Internetdokumenten, um daraus zu lernen. In der Ära des überwachten Feintunings waren es Gespräche. Vertragsarbeiter werden eingestellt, um Antworten auf Fragen zu erstellen, ähnlich wie man es auf Stack Overflow / Quora usw. sehen würde, aber ausgerichtet auf LLM-Anwendungsfälle. Keine der beiden oben genannten wird verschwinden (meiner Meinung nach), aber in dieser Ära des verstärkenden Lernens sind es jetzt die Umgebungen. Im Gegensatz zu den oben genannten geben sie dem LLM die Möglichkeit, tatsächlich zu interagieren - Aktionen zu ergreifen, Ergebnisse zu sehen usw. Das bedeutet, dass man hoffen kann, viel besser abzuschneiden als bei der statistischen Expertenimitation. Und sie können sowohl für das Training als auch für die Bewertung des Modells verwendet werden. Aber wie zuvor besteht das Kernproblem jetzt darin, eine große, vielfältige und qualitativ hochwertige Sammlung von Umgebungen zu benötigen, als Übungen, gegen die das LLM üben kann. In gewisser Weise erinnert es mich an OpenAIs allererstes Projekt (Gym), das genau ein Framework war, das hoffte, eine große Sammlung von Umgebungen im gleichen Schema aufzubauen, aber das war lange bevor LLMs existierten. Die Umgebungen waren einfache akademische Kontrollaufgaben der damaligen Zeit, wie Cartpole, ATARI usw. Das @PrimeIntellect-Umgebungen-Hub (und das `verifiers`-Repo auf GitHub) baut die modernisierte Version, die speziell auf LLMs abzielt, und es ist eine großartige Anstrengung/Idee. Ich habe vorgeschlagen, dass jemand etwas Ähnliches wie das Anfang dieses Jahres aufbaut: Umgebungen haben die Eigenschaft, dass, sobald das Grundgerüst des Frameworks vorhanden ist, die Gemeinschaft/Industrie prinzipiell über viele verschiedene Bereiche parallelisieren kann, was aufregend ist. Letzter Gedanke - persönlich und langfristig bin ich optimistisch in Bezug auf Umgebungen und agentische Interaktionen, aber ich bin pessimistisch in Bezug auf verstärkendes Lernen speziell. Ich denke, dass Belohnungsfunktionen super sus sind, und ich denke, dass Menschen RL nicht zum Lernen verwenden (vielleicht tun sie das für einige motorische Aufgaben usw., aber nicht für intellektuelle Problemlösungsaufgaben). Menschen verwenden verschiedene Lernparadigmen, die erheblich leistungsfähiger und stichproben-effizienter sind und die noch nicht richtig erfunden und skaliert wurden, obwohl frühe Skizzen und Ideen existieren (als nur ein Beispiel die Idee des "System Prompt Learning", bei dem das Update auf Tokens/Contexts und nicht auf Gewichte verschoben wird und optional in Gewichte destilliert wird, als separater Prozess, ähnlich wie es der Schlaf tut).
Prime Intellect
Prime IntellectVor 21 Stunden
Einführung des Environments Hub RL-Umgebungen sind der entscheidende Engpass für die nächste Welle des AI-Fortschritts, aber große Labore schließen sie ein Wir haben eine Community-Plattform zum Crowdsourcing offener Umgebungen geschaffen, damit jeder zu Open-Source-AGI beitragen kann.
520,35K