Hvordan GPT-5 tenker, med @OpenAI VP of Research @MillionInt
00:00 - Introduksjon
01:01 – Hva resonnement faktisk betyr i AI
02:32 - Tankekjede: Modellerer tenkning i ord
05:25 – Hvordan modeller bestemmer hvor lenge de skal tenke
07:24 - Evolusjon fra o1 til o3 til GPT-5
11:00 - Veien til OpenAI: Å vokse opp i Polen, droppe ut av skolen, handel
20:32 - Jobber med robotikk og Rubiks kubeløsning
23:02 - En dag i livet: Snakke med forskere
24:06 - Hvordan forskningsprioriteringer bestemmes
26:53 - OpenAIs kultur for åpenhet
29:32 - Balansere forskning med rask levering
31:52 - Bruke OpenAIs egne verktøy daglig
32:43 – Pre-Training Plus RL: Den moderne AI-stabelen
35:10 - Forsterkende læring 101: Trening av hunder
40:17 - Utviklingen av dyp forsterkende læring
42:09 - Da GPT-4 virket underveldende i begynnelsen
45:39 – Hvordan RLHF gjorde GPT-4 faktisk nyttig
48:02 - Uovervåket vs veiledet læring
49:59 - GRPO og hvordan DeepSeek akselererte amerikansk forskning
53:05 - Hva som trengs for å skalere forsterkende læring
55:36 – Agentisk AI og langsiktig tenkning
59:19 – Justering som et RL-problem
1:01:11 - Vinner ICPC World Finals uten spesifikk trening
1:05:53 – Bruke RL utover matematikk og koding
1:09:15 - Veien herfra til AGI
1:12:23 – Ren RL vs språkmodeller