V éře předškolního vzdělávání byly důležité internetové textové zprávy. Primárně byste chtěli velkou, rozmanitou a vysoce kvalitní sbírku internetových dokumentů, ze kterých byste se mohli učit. V době řízeného dolaďování to byly rozhovory. Smluvní pracovníci jsou najímáni, aby vytvářeli odpovědi na otázky, trochu jako to, co byste viděli na Stack Overflow / Quora atd., ale zaměřené na případy použití LLM. Ani jedno z výše uvedených nezmizí (imo), ale v této éře zpětnovazebního učení je to nyní prostředí. Na rozdíl od výše uvedeného dávají LLM příležitost skutečně interagovat - podnikat akce, vidět výsledky atd. To znamená, že můžete doufat, že se vám podaří mnohem lépe než napodobení statistického odborníka. A lze je použít jak pro trénování modelů, tak pro jejich vyhodnocování. Ale stejně jako dříve, jádrem problému je nyní potřeba velké, rozmanité a vysoce kvalitní sady prostředí, jako cvičení, proti kterým by LLM mohl cvičit. V některých ohledech mi to připomíná úplně první projekt OpenAI (tělocvična), což byl přesně rámec, který doufal, že vytvoří velkou sbírku prostředí ve stejném schématu, ale to bylo dávno před LLM. Takže prostředí byla v té době jednoduchými akademickými kontrolními úkoly, jako cartpole, ATARI atd. Centrum @PrimeIntellect environments (a úložiště "verifiers" na GitHubu) vytváří modernizovanou verzi specificky zaměřenou na LLM a je to skvělé úsilí/nápad. Navrhl jsem, aby někdo postavil něco podobného na začátku tohoto roku: Prostředí mají tu vlastnost, že jakmile je kostra rámce na svém místě, v principu se komunita / průmysl může paralelizovat v mnoha různých doménách, což je vzrušující. Závěrečná myšlenka - osobně a dlouhodobě, jsem optimistický ohledně prostředí a agentických interakcí, ale jsem medvědí konkrétně ohledně posilovaného učení. Myslím si, že funkce odměny jsou super sus a myslím si, že lidé nepoužívají RL k učení (možná to dělají pro některé motorické úkoly atd., ale ne pro intelektuální úkoly na řešení problémů). Lidé používají různá paradigmata učení, která jsou výrazně výkonnější a efektivnější pro vzorkování a která ještě nebyla řádně vynalezena a škálována, i když existují rané náčrty a nápady (jako jeden příklad, myšlenka "systémového promptního učení", přesunutí aktualizace na tokeny/kontexty, nikoli na váhy a volitelně destilace na váhy jako samostatný proces, trochu jako spánek).
Prime Intellect
Prime IntellectPřed 15 h
Představujeme centrum Prostředí Prostředí RL jsou klíčovou překážkou pro další vlnu pokroku v oblasti umělé inteligence, ale velké laboratoře je blokují Vybudovali jsme komunitní platformu pro crowdsourcing otevřených prostředí, takže kdokoli může přispívat do open-source AGI
426,99K