Enrutamiento Lookahead para LLMs Propone Lookahead, un marco de enrutamiento para permitir un enrutamiento más informado sin necesidad de inferencia completa. Logra una ganancia de rendimiento promedio del 7.7% sobre el estado del arte. Aquí está la razón por la que funciona: Lookahead es un nuevo marco para el enrutamiento en sistemas multi-LLM, decidiendo qué modelo debe manejar cada consulta. Idea clave: En lugar de enrutarse solo en función de la consulta de entrada, Lookahead predice representaciones latentes de respuestas potenciales, dándole un “vistazo” a lo que cada modelo diría sin generar texto completamente. Decisiones más inteligentes: Esta predicción consciente de la respuesta hace que el enrutamiento sea más sensible al contexto y preciso, especialmente para tareas abiertas o impulsadas por preferencias. Aprendizaje eficiente: Es altamente eficiente en datos, alcanzando el rendimiento completo con solo el 16% de los datos de entrenamiento en comparación con las líneas base, y aprende mejores representaciones semánticas para el enrutamiento. Diseño dual: Funciona tanto con variantes de LM causales como enmascaradas, generalizando a través de múltiples arquitecturas. Rendimiento: Supera a los métodos de enrutamiento de última generación en siete benchmarks, con las mayores ganancias en tareas matizadas y creativas. Lookahead demuestra que agregar una previsión generativa ligera puede hacer que los sistemas multi-modelo sean más adaptativos y rentables sin necesidad de una inferencia completa del modelo.