DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

Anoche enseñé a nanochat d32 cómo contar la 'r' en fresa (o variaciones similares). Pensé que este sería un buen/divertido ejemplo de cómo añadir capacidades a nanochat y escribí una guía completa aquí: Esto se hace a través de una nueva tarea sintética `SpellingBee` que genera ejemplos de un usuario pidiendo este tipo de problema, y una solución ideal de un asistente. Luego, realizamos un entrenamiento intermedio/SFT para afinar el modelo LLM con esta capacidad, o entrenamos más con RL para hacerlo más robusto. Hay muchos detalles que hay que acertar, especialmente en modelos más pequeños, y la guía los detalla. Como un breve resumen: - Tienes que asegurar diversidad en los prompts/consultas de los usuarios. - Para modelos pequeños como nanochat, especialmente, tienes que tener mucho cuidado con los detalles de tokenización para facilitar la tarea a un LLM. En particular, debes tener cuidado con los espacios en blanco, y luego debes distribuir el cálculo del razonamiento a través de muchos tokens de solución parcial: primero estandarizamos la palabra entre comillas, luego la deletreamos (para romper los tokens), luego iteramos y mantenemos un contador explícito, etc. - Estoy animando al modelo a resolver el problema de dos maneras separadas: una forma manual (aritmética mental en su cabeza) y también mediante el uso de herramientas del intérprete de Python al que nanochat tiene acceso. Esto es un poco "ilusión" porque cada solución en este momento es "limpia", sin errores. Se podría ajustar la tarea para simular errores y demostrar recuperaciones por ejemplo, o ejecutar RL. Lo más probable es que una combinación de ambos funcione mejor, donde lo primero actúa como el previo para el RL y le da cosas con las que trabajar. Si nanochat fuera un modelo mucho más grande, esperarías o desearías que esta capacidad "saliera" más fácilmente en algún momento. Pero dado que el "cerebro" de nanochat d32 es del tamaño de una ~abeja de miel, si queremos que cuente las r's en fresa, tenemos que hacerlo sobre-representándolo en los datos, para animar al modelo a aprenderlo antes. ¡Pero funciona! :)

Parte superior

Clasificación

Favoritos