Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andrej Karpathy
Construyendo @EurekaLabsAI. Anteriormente Director de IA @ Tesla, equipo fundador @ OpenAI, CS231n/PhD @ Stanford. Me gusta entrenar grandes redes neuronales profundas.
Anoche le enseñé a nanochat d32 cómo contar 'r' en fresa (o variaciones similares). Pensé que este sería un buen ejemplo / divertido de cómo agregar capacidades a nanochat y escribí una guía completa aquí:
Esto se hace a través de una nueva tarea sintética 'SpellingBee' que genera ejemplos de un usuario que solicita este tipo de problema y una solución ideal de un asistente. Luego entrenamos a mitad / SFT ajustamos estos para dotar al LLM con la capacidad, o entrenamos aún más con RL para hacerlo más robusto. Hay muchos detalles que hacer bien, especialmente en tamaños de modelos más pequeños y la guía los recorre. Como breve resumen:
- Debe garantizar la diversidad en las solicitudes/consultas de los usuarios
- Para modelos pequeños como nanochat especialmente, debe tener mucho cuidado con los detalles de tokenización para facilitar la tarea para un LLM. En particular, hay que tener cuidado con los espacios en blanco, y luego hay que repartir el cálculo del razonamiento en muchos tokens de solución parcial: primero estandarizamos la palabra entre comillas, luego la deletreamos (para dividir los tokens), luego iteramos y mantenemos un contador explícito, etc.
- Estoy alentando al modelo a resolver el modelo de dos maneras separadas: de forma manual (aritmética mental en su cabeza) y también mediante el uso de herramientas del intérprete de Python al que nanochat tiene acceso. Esto es un poco "humo y espejos" porque cada solución en el cajero automático es "limpia", sin errores. Se podría ajustar la tarea para simular errores y demostrar recuperaciones con el ejemplo, o ejecutar RL. Lo más probable es que una combinación de ambos funcione mejor, donde el primero actúa como el prior para el RL y le da cosas con las que trabajar.
Si nanochat fuera un modelo mucho más grande, esperaría o esperaría que esta capacidad "apareciera" más fácilmente en algún momento. Pero debido a que el "cerebro" de nanochat d32 es del tamaño de una ~abeja, si queremos que cuente r en fresa, tenemos que hacerlo sobrerrepresentándolo en los datos, para alentar al modelo a aprenderlo antes. ¡Pero funciona! :)

8.84K
Me gusta bastante el nuevo artículo de DeepSeek-OCR. Es un buen modelo de OCR (tal vez un poco peor que los puntos), y sí, recopilación de datos, etc., pero de todos modos no importa.
La parte más interesante para mí (especialmente como un visionario por computadora de corazón que se hace pasar temporalmente por una persona de lenguaje natural) es si los píxeles son mejores entradas para los LLM que el texto. Si los tokens de texto son un desperdicio y simplemente terribles, en la entrada.
Tal vez tenga más sentido que todas las entradas a los LLM solo sean imágenes. Incluso si tiene una entrada de texto puro, tal vez prefiera renderizarlo y luego introducirlo:
- más compresión de información (ver artículo) = > ventanas de contexto más cortas, más eficiencia
- flujo de información significativamente más general => no solo texto, sino, por ejemplo, texto en negrita, texto en color, imágenes arbitrarias.
- La entrada ahora se puede procesar con atención bidireccional fácilmente y de forma predeterminada, no con atención autorregresiva, mucho más poderosa.
- ¡¡Elimina el tokenizador (en la entrada)!! Ya me quejé de lo mucho que me disgusta el tokenizador. Los tokenizadores son feos, separados, no una etapa de extremo a extremo. "Importa" toda la fealdad de Unicode, codificaciones de bytes, hereda una gran cantidad de equipaje histórico, riesgo de seguridad / jailbreak (por ejemplo, bytes de continuación). Hace que dos caracteres que se ven idénticos al ojo se vean como dos tokens completamente diferentes internamente en la red. Un emoji sonriente parece una ficha extraña, no un... cara sonriente real, píxeles y todo, y todo el aprendizaje de transferencia que conlleva. El tokenizador debe desaparecer.
OCR es solo una de las muchas tareas útiles de visión > texto. Y las tareas de texto > texto se pueden convertir en tareas de visión >texto. No al revés.
Tantos que el mensaje del usuario son imágenes, pero el decodificador (la respuesta del Asistente) sigue siendo texto. Es mucho menos obvio cómo generar píxeles de manera realista ... o si quieres.
Ahora también tengo que luchar contra el impulso de realizar una misión secundaria de una versión de nanochat de solo entrada de imágenes ...

vLLM20 oct, 19:31
🚀 DeepSeek-OCR, la nueva frontera de OCR de @deepseek_ai, que explora la compresión óptica de contexto para LLM, se ejecuta increíblemente rápido en vLLM ⚡ (~ 2500 tokens/s en A100-40G), impulsado por vllm == 0.8.5 para soporte de modelo de día 0.
🧠 Comprime los contextos visuales hasta un 20× manteniendo una precisión de OCR del 97% en <10×.
📄 Supera a GOT-OCR2.0 y MinerU2.0 en OmniDocBench utilizando menos tokens de visión.
🤝 El equipo de vLLM está trabajando con DeepSeek para llevar el soporte oficial de DeepSeek-OCR a la próxima versión de vLLM, lo que hace que la inferencia multimodal sea aún más rápida y fácil de escalar.
🔗
#vLLM #DeepSeek #OCR #LLM #VisionAI #DeepLearning



2.91M
Bonita y breve publicación que ilustra lo simple que puede ser la difusión de texto (discreta).
La difusión (es decir, paralela, eliminación de ruido iterada, arriba) es el paradigma generativo generalizado en imagen/video, pero la autorregresión (es decir, ir de izquierda a derecha abajo) es el paradigma dominante en el texto. Para el audio he visto un poco de ambos.
Muchos artículos de difusión parecen un poco densos, pero si quitas el formalismo matemático, terminas con algoritmos de referencia simples, por ejemplo, algo mucho más cercano a la coincidencia de flujo en continuo, o algo así en discreto. Es su transformador vainilla pero con atención bidireccional, donde vuelve a muestrear y enmascarar iterativamente todos los tokens en su "lienzo de tokens" según un programa de ruido hasta que obtiene la muestra final en el último paso. (La atención bidireccional es mucho más poderosa, y obtienes modelos de lenguaje autorregresivos mucho más fuertes si entrenas con ella, desafortunadamente hace que el entrenamiento sea mucho más costoso porque ahora no puedes paralelizar a través de la atenuación de la secuencia).
Por lo tanto, la autorregresión está haciendo un '.append(token)' al lienzo de tokens mientras solo atiende hacia atrás, mientras que la difusión está actualizando todo el lienzo de tokens con un '.setitem(idx, token)' mientras se atiende bidireccionalmente. El pensamiento humano ingenuamente se siente un poco más como una autorregresión, pero es difícil decir que no hay más componentes similares a la difusión en algún espacio latente de pensamiento. Parece muy posible que pueda interpolar aún más entre ellos o generalizarlos aún más. Y es un componente de la pila de LLM que todavía se siente un poco fungible.
Ahora debo resistir la tentación de hacer una misión secundaria en el entrenamiento de nanochat con difusión.

Nathan Barry21 oct, 00:52
¡BERT es solo un paso de difusión de texto único! (1/n)
Cuando leí por primera vez sobre los modelos de difusión del lenguaje, me sorprendió descubrir que su objetivo de entrenamiento era solo una generalización del modelado de lenguaje enmascarado (MLM), algo que hemos estado haciendo desde BERT desde 2018.
El primer pensamiento que tuve fue: "¿podemos ajustar un modelo similar a BERT para generar texto?"
621.32K
Populares
Ranking
Favoritas

