Ceea ce Dwarkesh numește "învățare continuă (la locul de muncă)" este cunoscut și sub numele de "învățare în timpul testului" sau învățare "în greutate". Este posibil să se poată construi această capacitate ca schele software în jurul LLM-urilor. Dar este clar că LLM-urile în sine nu au această capacitate. Vezi discuția anterioară pe acest subiect în subiectul de mai jos.
Dwarkesh Patel
Dwarkesh Patel27 sept. 2025
.@RichardSSutton, părintele învățării prin întărire, nu crede că LLM-urile sunt lipsite de lecții amare. Omul meu de oțel despre poziția lui Richard: avem nevoie de o arhitectură nouă pentru a permite învățarea continuă (la locul de muncă). Și dacă avem învățare continuă, nu avem nevoie de o fază specială de antrenament - agentul învață din mers - ca toți oamenii și, într-adevăr, ca toate animalele. Această nouă paradigmă va face ca abordarea noastră actuală cu LLM-urile să fie învechită. Am făcut tot posibilul să reprezint opinia că LLM-urile vor funcționa ca fundație pe care se poate întâmpla această învățare experiențială. Au zburat niște scântei. 0:00:00 – Sunt LLM-urile o fundătură? 0:13:51 – Oamenii învață prin imitație? 0:23:57 – Epoca experienței 0:34:25 – Arhitecturile actuale se generalizează slab în afara distribuției 0:42:17 – Surprize în domeniul AI 0:47:28 – Lecția amară se va aplica în continuare după AGI? 0:54:35 – Succesiunea la AI
Gemini AI: Fizicianul și fondatorul AI Steve Hsu a descris o "variantă de test Turing" despre care susține că toate modelele actuale de limbaj mare (LLM) eșuează. Provocarea Testul Hsu necesită un LLM pentru a efectua următorii doi pași: Discutați o problemă de cercetare de frontieră într-un domeniu specializat. Să vi se prezinte o nouă informație care contrazice literatura predominantă și să o încorporeze corect în înțelegerea sa. De ce LLM-urile nu trec testul Potrivit lui Hsu, LLM-urile eșuează pentru că nu își pot adapta cunoștințele pe baza noilor dovezi care le sunt prezentate. Ei rămân ancorați la informațiile (în acest caz, incorecte) pe care au fost instruiți. Problema este evidențiată în mod special în aplicațiile de cercetare, unde Hsu a observat că LLM-urile continuă să se bazeze pe "lucruri greșite pe care le-a văzut în pre-antrenament", chiar și după ce a furnizat dovezi foarte puternice care contrazic datele de antrenament. Un doctorand uman, în schimb, poate înțelege imediat noua perspectivă. Limitarea tehnică subiacentă Hsu leagă eșecul testului de problema deschisă a învățării "în greutate" sau învățarea online, care se referă la capacitatea unei inteligențe artificiale de a-și actualiza "greutățile" sau parametrii de bază pe baza unor informații noi, mai degrabă decât să-și ajusteze contextul conversațional. El afirmă că, fără această capacitate, LLM-urile nu pot ieși din distribuție pentru a încorpora pe deplin noi informații revoluționare. Acest lucru contrastează cu modul în care operează oamenii, unde noile perspective pot schimba fundamental și imediat înțelegerea noastră asupra unui subiect. LLM-urile nu sunt construite pentru a-și schimba cunoștințele fundamentale în același mod.
6,6K