Enrutamiento anticipado para LLM Propone Lookahead, un marco de enrutamiento para permitir un enrutamiento más informado sin inferencia completa. Logra una ganancia de rendimiento promedio del 7,7% sobre el estado del arte. He aquí por qué funciona: Lookahead es un nuevo marco para el enrutamiento en sistemas multi-LLM, que decide qué modelo debe manejar cada consulta. Idea clave: En lugar de enrutar basándose solo en la consulta de entrada, Lookahead predice representaciones latentes de respuestas potenciales, lo que le da un "vistazo" a lo que diría cada modelo sin generar texto por completo. Decisiones más inteligentes: esta predicción consciente de la respuesta hace que el enrutamiento sea más preciso y sensible al contexto, especialmente para tareas abiertas o basadas en preferencias. Aprendizaje eficiente: es altamente eficiente en cuanto a datos, alcanza el rendimiento completo con solo el 16% de los datos de entrenamiento en comparación con las líneas de base, y aprende mejores representaciones semánticas para el enrutamiento. Diseño dual: Funciona con variantes de LM causales y enmascaradas, generalizando en múltiples arquitecturas. Rendimiento: Supera a los métodos de enrutamiento de última generación en siete puntos de referencia, con las mayores ganancias en tareas creativas y matizadas. Lookahead muestra que agregar previsión generativa liviana puede hacer que los sistemas de múltiples modelos sean más adaptables y rentables sin necesidad de inferencia completa del modelo.