Routing anticipé pour les LLMs Propose Lookahead, un cadre de routage pour permettre un routage plus informé sans inférence complète. Obtient un gain de performance moyen de 7,7 % par rapport à l'état de l'art. Voici pourquoi cela fonctionne : Lookahead est un nouveau cadre pour le routage dans les systèmes multi-LLM, décidant quel modèle doit traiter chaque requête. Idée clé : Au lieu de router uniquement en fonction de la requête d'entrée, Lookahead prédit des représentations latentes des réponses potentielles, lui donnant un "aperçu" de ce que chaque modèle dirait sans générer complètement de texte. Décisions plus intelligentes : Cette prédiction consciente de la réponse rend le routage plus sensible au contexte et précis, en particulier pour les tâches ouvertes ou basées sur les préférences. Apprentissage efficace : Il est très efficace en termes de données, atteignant une performance complète avec seulement 16 % des données d'entraînement par rapport aux références, et apprend de meilleures représentations sémantiques pour le routage. Conception duale : Fonctionne avec des variantes de LM causales et masquées, généralisant à travers plusieurs architectures. Performance : Surpasse les méthodes de routage à l'état de l'art sur sept benchmarks, avec les plus grands gains dans des tâches nuancées et créatives. Lookahead montre qu'ajouter une prévoyance générative légère peut rendre les systèmes multi-modèles plus adaptatifs et rentables sans nécessiter une inférence complète du modèle.