DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

Andrej Karpathy

Construindo @EurekaLabsAI. Anteriormente Diretor de AI @ Tesla, equipe fundadora @ OpenAI, CS231n/PhD @ Stanford. Eu gosto de treinar grandes redes neurais profundas.

Eu gosto bastante do novo artigo DeepSeek-OCR. É um bom modelo de OCR (talvez um pouco pior do que pontos), e sim, coleta de dados etc., mas de qualquer maneira não importa. A parte mais interessante para mim (especialmente como uma visão computacional no coração que está temporariamente disfarçada de pessoa de linguagem natural) é se os pixels são melhores entradas para LLMs do que texto. Se os tokens de texto são um desperdício e simplesmente terríveis, na entrada. Talvez faça mais sentido que todas as entradas para LLMs sejam apenas imagens. Mesmo que você tenha entrada de texto puro, talvez prefira renderizá-la e depois alimentá-la: - Mais compactação de informações (consulte o artigo) = > janelas de contexto mais curtas, mais eficiência - fluxo de informações significativamente mais geral = > não apenas texto, mas, por exemplo, texto em negrito, texto colorido, imagens arbitrárias. - A entrada agora pode ser processada com atenção bidirecional facilmente e como padrão, não atenção autorregressiva - muito mais poderosa. - exclua o tokenizer (na entrada)!! Eu já reclamei sobre o quanto não gosto do tokenizador. Os tokenizadores são feios, separados, não de ponta a ponta. Ele "importa" toda a feiúra do Unicode, codificações de bytes, herda muita bagagem histórica, risco de segurança / jailbreak (por exemplo, bytes de continuação). Isso faz com que dois caracteres que parecem idênticos aos olhos pareçam dois tokens completamente diferentes internamente na rede. Um emoji sorridente parece um símbolo estranho, não um... rosto sorridente real, pixels e tudo, e todo o aprendizado de transferência que isso traz. O tokenizer deve ir. O OCR é apenas uma das muitas tarefas úteis de visão > texto. E as tarefas de texto -> texto podem ser transformadas em tarefas de visão ->texto. Não vice-versa. Muitos a mensagem do usuário é imagens, mas o decodificador (a resposta do Assistente) permanece texto. É muito menos óbvio como produzir pixels de forma realista ... ou se você quiser. Agora eu também tenho que lutar contra o desejo de fazer uma missão secundária de uma versão somente de entrada de imagem do nanochat ...

É um prazer vir no Dwarkesh na semana passada, achei as perguntas e a conversa muito boas. Eu assisti novamente o pod agora também. Em primeiro lugar, sim, eu sei, e sinto muito por falar tão rápido :). É em meu detrimento, porque às vezes meu tópico de fala supera meu tópico de pensamento, então acho que estraguei algumas explicações devido a isso, e às vezes também estava nervoso por estar indo muito pela tangente ou muito fundo em algo relativamente espúrio. De qualquer forma, algumas notas / dicas: Cronogramas da AGI. Meus comentários sobre os cronogramas da AGI parecem ser a parte mais popular da resposta inicial. Esta é a "década dos agentes" é uma referência a este tweet anterior Basicamente, minhas linhas do tempo de IA são cerca de 5-10 vezes pessimistas com o que você encontrará na festa em casa da IA de SF do seu bairro ou na linha do tempo do Twitter, mas ainda bastante otimista com uma maré crescente de negadores e céticos da IA. O conflito aparente não é: imo nós simultaneamente 1) vimos uma enorme quantidade de progresso nos últimos anos com LLMs, enquanto 2) ainda há muito trabalho restante (trabalho pesado, trabalho de integração, sensores e atuadores para o mundo físico, trabalho social, trabalho de segurança e proteção (jailbreaks, envenenamento, etc.)) e também pesquisa a ser feita antes de termos uma entidade que você preferiria contratar em vez de uma pessoa para um trabalho arbitrário no mundo. Eu acho que, no geral, 10 anos devem ser um cronograma muito otimista para a AGI, é apenas em contraste com o hype atual que não parece assim. Animais vs Fantasmas. Meu artigo anterior no podcast de Sutton. Desconfio que exista um único algoritmo simples que você pode soltar no mundo e ele aprende tudo do zero. Se alguém construir uma coisa dessas, estarei errado e será o avanço mais incrível em IA. Na minha opinião, os animais não são um exemplo disso - eles são pré-embalados com uma tonelada de inteligência pela evolução e o aprendizado que eles fazem é mínimo no geral (exemplo: Zebra ao nascer). Colocando nossos chapéus de engenharia, não vamos refazer a evolução. Mas com os LLMs, tropeçamos em uma abordagem alternativa para "pré-empacotar" uma tonelada de inteligência em uma rede neural - não por evolução, mas por prever o próximo token pela Internet. Essa abordagem leva a um tipo diferente de entidade no espaço de inteligência. Distinto dos animais, mais parecido com fantasmas ou espíritos. Mas podemos (e devemos) torná-los mais animais ao longo do tempo e, de certa forma, é disso que se trata muito do trabalho de fronteira. Em RL. Eu já critiquei RL algumas vezes, por exemplo. . Primeiro, você está "sugando a supervisão através de um canudo", então eu acho que o sinal/flop é muito ruim. RL também é muito barulhento porque uma conclusão pode ter muitos erros que podem ser encorajados (se você tropeçar na resposta certa) e, inversamente, tokens de insight brilhantes que podem ser desencorajados (se acontecer de você errar mais tarde). A supervisão do processo e os juízes do LLM também têm problemas. Acho que veremos paradigmas alternativos de aprendizagem. Eu sou uma longa "interação agente", mas curta "aprendizado por reforço" Eu vi uma série de artigos aparecerem recentemente que estão latindo para a árvore certa ao longo das linhas do que eu chamei de "aprendizado imediato do sistema", mas acho que também há uma lacuna entre as ideias sobre arxiv e a implementação real em escala em um laboratório de fronteira LLM que funciona de maneira geral. No geral, estou bastante otimista de que veremos um bom progresso nessa dimensão do trabalho restante em breve e, por exemplo, eu diria que a memória do ChatGPT e assim por diante são exemplos primordiais implantados de novos paradigmas de aprendizagem. Núcleo cognitivo. Meu post anterior sobre "núcleo cognitivo": , a ideia de desmontar LLMs, de dificultar a memorização ou remover ativamente sua memória, para torná-los melhores na generalização. Caso contrário, eles se apoiam demais no que memorizaram. Os humanos não conseguem memorizar tão facilmente, o que agora parece mais um recurso do que um bug por contraste. Talvez a incapacidade de memorizar seja uma espécie de regularização. Também meu post de um tempo atrás sobre como a tendência no tamanho do modelo é "para trás" e por que "os modelos precisam primeiro ficar maiores antes de poderem ficar menores" Viagem no tempo para Yann LeCun 1989. Este é o post que eu fiz um trabalho muito apressado / ruim de descrever no pod: . Basicamente - quanto você poderia melhorar os resultados de Yann LeCun com o conhecimento de 33 anos de progresso algorítmico? Quão restritos foram os resultados de cada um dos algoritmos, dados e computação? Estudo de caso lá. nanochat. Minha implementação de ponta a ponta do pipeline de treinamento/inferência do ChatGPT (o essencial) Em agentes LLM. Minha crítica à indústria é mais em ultrapassar a capacidade atual do wrt de ferramentas. Eu vivo no que vejo como um mundo intermediário onde quero colaborar com LLMs e onde nossos prós / contras são combinados. A indústria vive em um futuro onde entidades totalmente autônomas colaboram em paralelo para escrever todo o código e os humanos são inúteis. Por exemplo, não quero um agente que saia por 20 minutos e volte com 1.000 linhas de código. Certamente não me sinto pronto para supervisionar uma equipe de 10 deles. Eu gostaria de ir em pedaços que eu possa manter na minha cabeça, onde um LLM explica o código que está escrevendo. Eu gostaria que ele me provasse que o que ele fez está correto, eu quero que ele puxe os documentos da API e me mostre que ele usou as coisas corretamente. Quero que ele faça menos suposições e pergunte/colabore comigo quando não tiver certeza sobre algo. Quero aprender ao longo do caminho e me tornar melhor como programador, não apenas receber montanhas de código que me disseram que funcionam. Eu só acho que as ferramentas deveriam ser mais realistas em relação à sua capacidade e como elas se encaixam na indústria hoje, e temo que, se isso não for bem feito, podemos acabar com montanhas de lixo se acumulando em software e um aumento nas vulnerabilidades, violações de segurança e etc. Automação de trabalhos. Como os radiologistas estão indo muito bem e quais trabalhos são mais suscetíveis à automação e por quê. Física. As crianças devem aprender física na educação infantil não porque passam a fazer física, mas porque é o assunto que melhor inicializa um cérebro. Os físicos são a célula-tronco embrionária intelectual Eu tenho um post mais longo que foi escrito pela metade em meus rascunhos por ~ ano, que espero terminar em breve. Obrigado novamente Dwarkesh por me receber!

Melhores

Classificação

Favoritos