Foi um prazer participar no Dwarkesh na semana passada, achei que as perguntas e a conversa foram realmente boas. Acabei de rever o podcast agora também. Primeiro de tudo, sim, eu sei, e peço desculpa por falar tão rápido :). Isso é prejudicial para mim porque às vezes o meu raciocínio verbal ultrapassa o meu raciocínio lógico, então acho que estraguei algumas explicações por causa disso, e às vezes também estava nervoso por estar a divagar demasiado ou a aprofundar-me em algo relativamente espúrio. De qualquer forma, algumas notas/dicas: Cronogramas de AGI. Meus comentários sobre os cronogramas de AGI parecem ser a parte mais comentada da resposta inicial. Esta é a "década dos agentes", uma referência a este tweet anterior. Basicamente, os meus cronogramas de IA são cerca de 5-10X pessimistas em relação ao que você encontrará na sua festa de IA em São Francisco ou no seu feed do Twitter, mas ainda assim bastante otimistas em relação a uma maré crescente de negadores e céticos da IA. O aparente conflito não é: na minha opinião, vimos simultaneamente 1) um enorme progresso nos últimos anos com LLMs enquanto 2) ainda há muito trabalho a ser feito (trabalho árduo, trabalho de integração, sensores e atuadores para o mundo físico, trabalho social, trabalho de segurança e proteção (jailbreaks, envenenamento, etc.)) e também pesquisa a ser realizada antes de termos uma entidade que você preferiria contratar em vez de uma pessoa para um trabalho arbitrário no mundo. Acho que, no geral, 10 anos deve ser um cronograma muito otimista para AGI, é apenas em contraste com a hype atual que não parece assim. Animais vs Fantasmas. Meu texto anterior sobre o podcast do Sutton. Sou cético de que exista um único algoritmo simples que você possa soltar no mundo e que aprenda tudo do zero. Se alguém construir algo assim, estarei errado e será a descoberta mais incrível em IA. Na minha mente, os animais não são um exemplo disso - eles vêm pré-embalados com uma tonelada de inteligência pela evolução e o aprendizado que fazem é bastante mínimo no geral (exemplo: Zebra ao nascer). Colocando nossos chapéus de engenheiro, não vamos refazer a evolução. Mas com LLMs tropeçamos em uma abordagem alternativa para "pré-embalar" uma tonelada de inteligência em uma rede neural - não pela evolução, mas prevendo o próximo token na internet. Essa abordagem leva a um tipo diferente de entidade no espaço da inteligência. Distinta dos animais, mais parecida com fantasmas ou espíritos. Mas podemos (e devemos) torná-los mais semelhantes a animais ao longo do tempo e, de certa forma, é isso que muito do trabalho de fronteira se trata. Sobre RL. Já critiquei RL algumas vezes, por exemplo. Primeiro, você está "sugando supervisão através de um canudo", então acho que o sinal/flop é muito ruim. RL também é muito ruidoso porque uma conclusão pode ter muitos erros que podem ser encorajados (se você acontecer de tropeçar na resposta certa), e, inversamente, tokens de insights brilhantes que podem ser desencorajados (se você acontecer de errar mais tarde). A supervisão de processos e os juízes de LLM também têm problemas. Acho que veremos paradigmas de aprendizado alternativos. Estou otimista em relação à "interação agente" mas cético em relação ao "aprendizado por reforço". Vi vários artigos surgirem recentemente que, na minha opinião, estão indo na direção certa ao longo das linhas do que chamei de "aprendizado de prompt de sistema", mas acho que também há uma lacuna entre as ideias no arxiv e a implementação real, em escala, em um laboratório de fronteira de LLM que funcione de maneira geral. Estou, no geral, bastante otimista de que veremos um bom progresso nessa dimensão do trabalho restante em breve, e, por exemplo, eu diria até que a memória do ChatGPT e assim por diante são exemplos primordiais de novos paradigmas de aprendizado. Núcleo cognitivo. Meu post anterior sobre "núcleo cognitivo": a ideia de despojar LLMs, de dificultar a memorização, ou de remover ativamente sua memória, para torná-los melhores em generalização. Caso contrário, eles se apoiam demais no que memorizaram. Os humanos não conseguem memorizar tão facilmente, o que agora parece mais uma característica do que um bug em contraste. Talvez a incapacidade de memorizar seja uma espécie de regularização. Também meu post de um tempo atrás sobre como a tendência no tamanho do modelo é "para trás" e por que "os modelos têm que primeiro ficar maiores antes de poderem ficar menores". Viagem no tempo para Yann LeCun 1989. Este é o post que fiz um trabalho muito apressado/ruim de descrever no podcast: basicamente - quanto você poderia melhorar os resultados de Yann LeCun com o conhecimento de 33 anos de progresso algorítmico? Quão limitados foram os resultados por cada um dos algoritmos, dados e computação? Estudo de caso lá. nanochat. Minha implementação de ponta a ponta do pipeline de treinamento/inferência do ChatGPT (o essencial). Sobre agentes LLM. Minha crítica à indústria é mais sobre a superestimação das ferramentas em relação à capacidade atual. Eu vivo no que vejo como um mundo intermediário onde quero colaborar com LLMs e onde nossos prós/contras estão alinhados. A indústria vive em um futuro onde entidades totalmente autônomas colaboram em paralelo para escrever todo o código e os humanos são inúteis. Por exemplo, não quero um Agente que saia por 20 minutos e volte com 1.000 linhas de código. Certamente não me sinto pronto para supervisionar uma equipe de 10 deles. Gostaria de ir em pedaços que consigo manter na minha cabeça, onde um LLM explica o código que está escrevendo. Gostaria que ele me provasse que o que fez está correto, quero que ele puxe a documentação da API e me mostre que usou as coisas corretamente. Quero que ele faça menos suposições e pergunte/colabore comigo quando não tiver certeza sobre algo. Quero aprender ao longo do caminho e me tornar melhor como programador, não apenas receber montanhas de código que me dizem que funciona. Apenas acho que as ferramentas deveriam ser mais realistas em relação à sua capacidade e como se encaixam na indústria hoje, e temo que se isso não for feito bem, poderíamos acabar com montanhas de lixo acumulando em todo o software, e um aumento nas vulnerabilidades, violações de segurança, etc. Automação de empregos. Como os radiologistas estão indo bem e quais empregos são mais suscetíveis à automação e por quê. Física. As crianças deveriam aprender física na educação básica não porque vão fazer física, mas porque é a disciplina que melhor ativa o cérebro. Os físicos são as células-tronco embrionárias intelectuais. Tenho um post mais longo que está meio escrito nos meus rascunhos há ~um ano, que espero terminar em breve. Obrigado novamente, Dwarkesh, por me receber!