Como o GPT-5 pensa, com @OpenAI vice-presidente de pesquisa @MillionInt
00:00 – Introdução
01:01 – O que o raciocínio realmente significa na IA
02:32 – Cadeia de Pensamento: Modelos Pensando em Palavras
05:25 – Como os modelos decidem quanto tempo pensar
07:24 – Evolução de o1 para o3 para GPT-5
11:00 - O caminho para a OpenAI: crescer na Polônia, abandonar a escola, negociar
20:32 – Trabalhando em robótica e resolução do cubo de Rubik
23:02 – Um dia na vida: conversando com pesquisadores
24:06 – Como as prioridades de pesquisa são determinadas
26:53 – Cultura de transparência da OpenAI
29:32 – Equilibrando a pesquisa com o envio rápido
31:52 – Usando as próprias ferramentas da OpenAI diariamente
32:43 – Pré-treinamento mais RL: a pilha de IA moderna
35:10 – Aprendizado por Reforço 101: Treinamento de Cães
40:17 – A evolução do aprendizado por reforço profundo
42:09 – Quando o GPT-4 parecia nada assombroso no início
45:39 – Como o RLHF tornou o GPT-4 realmente útil
48:02 – Aprendizado não supervisionado x supervisionado
49:59 - GRPO e como o DeepSeek acelerou a pesquisa nos EUA
53:05 – O que é necessário para dimensionar o aprendizado por reforço
55:36 – IA agêntica e pensamento de longo horizonte
59:19 – Alinhamento como um problema de RL
1:01:11 - Vencendo a Final Mundial do ICPC sem treinamento específico
1:05:53 – Aplicando RL além da matemática e da codificação
1:09:15 – O caminho daqui até a AGI
1:12:23 – RL puro versus modelos de linguagem