DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

Andrej Karpathy

Construindo @EurekaLabsAI. Anteriormente Diretor de AI @ Tesla, equipe fundadora @ OpenAI, CS231n/PhD @ Stanford. Eu gosto de treinar grandes redes neurais profundas.

Eu gosto bastante do novo artigo DeepSeek-OCR. É um bom modelo de OCR (talvez um pouco pior do que pontos), e sim, coleta de dados etc., mas de qualquer maneira não importa. A parte mais interessante para mim (especialmente como uma visão computacional no coração que está temporariamente disfarçada de pessoa de linguagem natural) é se os pixels são melhores entradas para LLMs do que texto. Se os tokens de texto são um desperdício e simplesmente terríveis, na entrada. Talvez faça mais sentido que todas as entradas para LLMs sejam apenas imagens. Mesmo que você tenha entrada de texto puro, talvez prefira renderizá-la e depois alimentá-la: - Mais compactação de informações (consulte o artigo) = > janelas de contexto mais curtas, mais eficiência - fluxo de informações significativamente mais geral = > não apenas texto, mas, por exemplo, texto em negrito, texto colorido, imagens arbitrárias. - A entrada agora pode ser processada com atenção bidirecional facilmente e como padrão, não atenção autorregressiva - muito mais poderosa. - exclua o tokenizer (na entrada)!! Eu já reclamei sobre o quanto não gosto do tokenizador. Os tokenizadores são feios, separados, não de ponta a ponta. Ele "importa" toda a feiúra do Unicode, codificações de bytes, herda muita bagagem histórica, risco de segurança / jailbreak (por exemplo, bytes de continuação). Isso faz com que dois caracteres que parecem idênticos aos olhos pareçam dois tokens completamente diferentes internamente na rede. Um emoji sorridente parece um símbolo estranho, não um... rosto sorridente real, pixels e tudo, e todo o aprendizado de transferência que isso traz. O tokenizer deve ir. O OCR é apenas uma das muitas tarefas úteis de visão > texto. E as tarefas de texto -> texto podem ser transformadas em tarefas de visão ->texto. Não vice-versa. Muitos a mensagem do usuário é imagens, mas o decodificador (a resposta do Assistente) permanece texto. É muito menos óbvio como produzir pixels de forma realista ... ou se você quiser. Agora eu também tenho que lutar contra o desejo de fazer uma missão secundária de uma versão somente de entrada de imagem do nanochat ...

Melhores

Classificação

Favoritos