Det som Dwarkesh hänvisar till som "kontinuerligt (på jobbet) lärande" är också känt som "testtidsinlärning" eller "in-weight" lärande. Det är möjligt att man kan bygga denna kapacitet som mjukvaruställningar runt LLM:er. Men det är tydligt att LLM:er i sig saknar denna förmåga. Se tidigare diskussion om detta ämne i tråden nedan.
Dwarkesh Patel
Dwarkesh Patel27 sep. 2025
.@RichardSSutton, som är fadern till förstärkningsinlärning, tycker inte att LLM:er är bittra lektioner. Min stålman i Richards position: vi behöver lite ny arkitektur för att möjliggöra kontinuerligt lärande (på jobbet). Och om vi har ett kontinuerligt lärande behöver vi inte en speciell träningsfas – agenten lär sig bara i farten – som alla människor, och faktiskt som alla djur. Detta nya paradigm kommer att göra vårt nuvarande tillvägagångssätt med LLM föråldrat. Jag gjorde mitt bästa för att representera åsikten att LLM:er kommer att fungera som grunden på vilken detta erfarenhetsbaserade lärande kan ske. Det slog gnistor. 0:00:00 - Är LLM en återvändsgränd? 0:13:51 – Gör människor imitationsinlärning? 0:23:57 - Erfarenhetens era 0:34:25 – Nuvarande arkitekturer generaliserar dåligt utanför distributionen 0:42:17 – Överraskningar inom AI-området 0:47:28 - Kommer The Bitter Lesson fortfarande att gälla efter AGI? 0:54:35 – Succession till AI
Tvillingarna AI: Fysikern och AI-grundaren Steve Hsu beskrev en "Turingtestvariant" som han hävdar att alla nuvarande stora språkmodeller (LLM) misslyckas. Utmaningen Hsu:s test kräver en LLM för att utföra följande två steg: Diskutera ett spetsforskningsproblem inom ett specialiserat område. Bli presenterad med en ny bit information som motsäger rådande litteratur och korrekt införliva den i sin förståelse. Varför LLM:er misslyckas med testet Enligt Hsu misslyckas LLM:er eftersom de inte kan anpassa sin kunskap baserat på nya bevis som presenteras för dem. De förblir förankrade i den (i det här fallet felaktiga) information som de har tränats på. Problemet belyses specifikt i forskningsansökningar, där Hsu har observerat att LLM:er fortsätter att förlita sig på "fel saker som de såg i förträningen", även efter att han ger mycket starka bevis som motsäger träningsdata. En mänsklig doktorand kan däremot omedelbart ta till sig den nya insikten. Den underliggande tekniska begränsningen Hsu kopplar testets misslyckande till det öppna problemet med "in-weight" learning, eller online learning, som hänvisar till förmågan hos en AI att uppdatera sina grundläggande "vikter" eller parametrar baserat på ny information, snarare än att bara justera sin konversationskontext. Han säger att utan denna förmåga kan LLM:er inte flytta "ut ur distributionen" för att fullt ut införliva banbrytande ny information. Detta står i kontrast till hur människor fungerar, där nya insikter i grunden och omedelbart kan förändra vår förståelse av ett ämne. LLM:er är inte byggda för att ändra sina grundläggande kunskaper på samma sätt.
86