Roteamento Lookahead para LLMs Propõe Lookahead, uma estrutura de roteamento para permitir um roteamento mais informado sem a necessidade de inferência completa. Alcança um ganho médio de desempenho de 7,7% em relação ao estado da arte. Aqui está o porquê de funcionar: Lookahead é uma nova estrutura para roteamento em sistemas multi-LLM, decidindo qual modelo deve lidar com cada consulta. Ideia principal: Em vez de roteamento baseado apenas na consulta de entrada, Lookahead prevê representações latentes de respostas potenciais, dando-lhe uma "espiada" no que cada modelo diria sem gerar texto completamente. Decisões mais inteligentes: Esta previsão consciente da resposta torna o roteamento mais sensível ao contexto e preciso, especialmente para tarefas abertas ou orientadas por preferências. Aprendizagem eficiente: É altamente eficiente em termos de dados, alcançando desempenho total com apenas 16% dos dados de treinamento em comparação com as linhas de base, e aprende melhores representações semânticas para roteamento. Design dual: Funciona com variantes de LM causais e mascarados, generalizando através de múltiplas arquiteturas. Desempenho: Supera os métodos de roteamento de estado da arte em sete benchmarks, com os maiores ganhos em tarefas nuançadas e criativas. Lookahead mostra que adicionar uma previsão generativa leve pode tornar os sistemas multi-modelo mais adaptativos e eficientes em termos de custo sem a necessidade de inferência completa do modelo.