Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Noam Brown
Pesquisando @OpenAI de raciocínio | Cocriou IAs de poker sobre-humanas Libratus/Pluribus, CICERO Diplomacy AI e modelos de raciocínio OpenAI o3 / o1 / 🍓
Abaixo está uma análise aprofundada sobre por que o autojogo funciona para jogos de soma zero de dois jogadores (2p0s) como Go/Poker/Starcraft, mas é muito mais difícil de usar em domínios do "mundo real". Resumindo: o autojogo converge para minimax em jogos 2p0s, e minimax é realmente útil nesses jogos.
Todo jogo finito 2p0s tem um equilíbrio minimax, que é essencialmente uma estratégia imbatível em expectativa (assumindo que os jogadores alternem lados). Em pedra, papel e tesoura, por exemplo, o minimax é 1/3 em cada ação.
O minimax é o que queremos? Não necessariamente. Se você estiver jogando minimax em Pedra, Papel e Tesoura quando a maioria das estratégias dos oponentes é "sempre jogar Pedra", então você está claramente subótimo, mesmo que não esteja perdendo em expectativa. Isso é especialmente importante em um jogo como o poker, porque jogar minimax significa que você pode não ganhar tanto dinheiro de jogadores fracos quanto poderia se os explorasse ao máximo.
Mas a garantia de "você não perderá em expectativa" é realmente boa de se ter. E em jogos como Xadrez e Go, a diferença entre uma estratégia minimax e uma estratégia que explora otimamente a população de oponentes é negligenciável. Por essa razão, o minimax é tipicamente considerado o objetivo para um jogo de soma zero de dois jogadores. Mesmo no poker, a sabedoria convencional entre os melhores profissionais é jogar minimax (teoria dos jogos ótima) e só desviar se você perceber fraquezas claras no oponente.
O autojogo sólido, mesmo do zero, é garantido para convergir para um equilíbrio minimax em jogos finitos 2p0s. Isso é incrível! Ao simplesmente escalar memória e computação, e sem dados humanos, podemos convergir para uma estratégia que é imbatível em expectativa.
E quanto aos jogos não 2p0s? Infelizmente, o autojogo puro, sem dados humanos, não é mais garantido para convergir para uma estratégia útil. Isso pode ser claramente visto no Jogo do Ultimato. Alice deve oferecer a Bob $0-100. Bob então aceita ou rejeita. Se Bob aceitar, o dinheiro é dividido de acordo com a proposta de Alice. Se Bob rejeitar, ambos recebem $0.
A estratégia de equilíbrio (especificamente, equilíbrio perfeito de subjogos) é oferecer 1 centavo e para Bob aceitar. Mas no mundo real, as pessoas não são tão racionais. Se Alice tentasse essa estratégia com humanos reais, ela acabaria com muito pouco dinheiro. O autojogo se torna desvinculado do que nós, como humanos, consideramos útil.
Muitas pessoas propuseram jogos como "um professor LLM propõe problemas matemáticos difíceis, e um aluno LLM tenta resolvê-los" para alcançar o treinamento de autojogo, mas isso enfrenta problemas semelhantes ao jogo do Ultimato, onde o equilíbrio está desvinculado do que nós, como humanos, consideramos útil.
Qual deve ser a recompensa para o professor em tal jogo? Se for 2p0s, então o professor é recompensado se o aluno não conseguir resolver o problema, então o professor fará perguntas impossíveis. Ok, e se recompensarmos por o aluno ter uma taxa de sucesso de 50%? Então o professor poderia simplesmente jogar uma moeda e perguntar ao aluno se caiu Cara. Ou o professor poderia pedir ao aluno para decifrar uma mensagem através de uma busca exaustiva de chave. A modelagem de recompensas para alcançar o comportamento pretendido se torna um grande desafio. Isso não é um problema em jogos 2p0s.
Eu realmente acredito no autojogo. Ele fornece uma fonte infinita de treinamento e continuamente emparelha um agente com um par igualmente habilidoso. Também vimos funcionar em alguns ambientes complexos não 2p0s, como Diplomacia e Hanabi. Mas aplicá-lo fora dos jogos 2p0s é muito mais difícil do que era para Go, Poker, Dota e Starcraft.


Noam Brown21/10/2025
O auto-jogo funciona tão bem no xadrez, go e poker porque esses jogos são de dois jogadores e de soma zero. Isso simplifica muitos problemas. O mundo real é mais complicado, razão pela qual ainda não vimos muitos sucessos do auto-jogo em LLMs.
A propósito, @karpathy fez um ótimo trabalho e eu concordo na maior parte com ele!
277,42K
O auto-jogo funciona tão bem no xadrez, go e poker porque esses jogos são de dois jogadores e de soma zero. Isso simplifica muitos problemas. O mundo real é mais complicado, razão pela qual ainda não vimos muitos sucessos do auto-jogo em LLMs.
A propósito, @karpathy fez um ótimo trabalho e eu concordo na maior parte com ele!

Dwarkesh Patel21/10/2025
.@karpathy diz que os LLMs atualmente carecem da acumulação cultural e do auto-jogo que impulsionaram os humanos para fora da savana:
Cultura: > “Por que um LLM não pode escrever um livro para os outros LLMs? Por que outros LLMs não podem ler o livro deste LLM e se inspirar nele, ou ficar chocados com ele?”
Auto-jogo: > “É extremamente poderoso. A evolução tem muita competição que impulsiona a inteligência e a evolução. O AlphaGo está jogando contra si mesmo e é assim que aprende a ficar realmente bom em Go. Não há equivalente ao auto-jogo nos LLMs. Por que um LLM, por exemplo, não pode criar um monte de problemas que outro LLM está aprendendo a resolver? Assim, o LLM está sempre tentando resolver problemas cada vez mais difíceis.”
Perguntei a Karpathy por que os LLMs ainda não conseguem construir cultura da maneira que os humanos fazem.
> “Os modelos mais simples se assemelham notavelmente a um estudante de jardim de infância. [Os modelos mais inteligentes ainda se sentem como] estudantes do ensino fundamental, no entanto. De alguma forma, ainda não nos formamos o suficiente para que [esses modelos] possam assumir. Meu Claude Code ou Codex, eles ainda se sentem como esse estudante de nível elementar. Eu sei que eles podem fazer testes de doutorado, mas ainda se sentem cognitivamente como um jardim de infância.”
> “Não acho que eles possam criar cultura porque ainda são crianças. Eles são crianças prodígio. Têm memória perfeita. Podem criar de forma convincente todo tipo de lixo que parece realmente bom. Mas ainda acho que eles não sabem realmente o que estão fazendo. Eles não têm realmente a cognição em todos esses pequenos itens que ainda precisamos coletar.
320,9K
.@Stanford os cursos são de alta qualidade, mas as políticas estão definitivamente desatualizadas. Estou ouvindo sobre uma trapaça flagrante e desenfreada acontecendo, onde os alunos estão inserindo as perguntas diretamente no ChatGPT durante os exames, mas os professores não podem supervisionar os exames devido ao código de honra.
Os professores querem mudar a política, mas a burocracia da universidade precisa passar por um processo de vários anos antes que possa mudar.

Zara Zhang14/10/2025
Estudantes de Harvard e Stanford dizem-me que os seus professores não entendem AI e que os cursos estão desatualizados.
Se as escolas de elite não conseguem acompanhar, a corrida por credenciais acabou. O auto-aprendizagem é o único caminho agora.
214,16K
Top
Classificação
Favoritos
