Tienda de dapps | Hub de Web3 para eventos y juegos

Temas en tendencia

Anoche le enseñé a nanochat d32 cómo contar 'r' en fresa (o variaciones similares). Pensé que este sería un buen ejemplo / divertido de cómo agregar capacidades a nanochat y escribí una guía completa aquí: Esto se hace a través de una nueva tarea sintética 'SpellingBee' que genera ejemplos de un usuario que solicita este tipo de problema y una solución ideal de un asistente. Luego entrenamos a mitad / SFT ajustamos estos para dotar al LLM con la capacidad, o entrenamos aún más con RL para hacerlo más robusto. Hay muchos detalles que hacer bien, especialmente en tamaños de modelos más pequeños y la guía los recorre. Como breve resumen: - Debe garantizar la diversidad en las solicitudes/consultas de los usuarios - Para modelos pequeños como nanochat especialmente, debe tener mucho cuidado con los detalles de tokenización para facilitar la tarea para un LLM. En particular, hay que tener cuidado con los espacios en blanco, y luego hay que repartir el cálculo del razonamiento en muchos tokens de solución parcial: primero estandarizamos la palabra entre comillas, luego la deletreamos (para dividir los tokens), luego iteramos y mantenemos un contador explícito, etc. - Estoy alentando al modelo a resolver el modelo de dos maneras separadas: de forma manual (aritmética mental en su cabeza) y también mediante el uso de herramientas del intérprete de Python al que nanochat tiene acceso. Esto es un poco "humo y espejos" porque cada solución en el cajero automático es "limpia", sin errores. Se podría ajustar la tarea para simular errores y demostrar recuperaciones con el ejemplo, o ejecutar RL. Lo más probable es que una combinación de ambos funcione mejor, donde el primero actúa como el prior para el RL y le da cosas con las que trabajar. Si nanochat fuera un modelo mucho más grande, esperaría o esperaría que esta capacidad "apareciera" más fácilmente en algún momento. Pero debido a que el "cerebro" de nanochat d32 es del tamaño de una ~abeja, si queremos que cuente r en fresa, tenemos que hacerlo sobrerrepresentándolo en los datos, para alentar al modelo a aprenderlo antes. ¡Pero funciona! :)

Populares

Ranking

Favoritas