Roteamento antecipado para LLMs Propõe o Lookahead, uma estrutura de roteamento para permitir um roteamento mais informado sem inferência completa. Atinge um ganho médio de desempenho de 7,7% em relação ao estado da arte. Aqui está por que funciona: Lookahead é uma nova estrutura para roteamento em sistemas multi-LLM, decidindo qual modelo deve lidar com cada consulta. Ideia-chave: em vez de rotear com base apenas na consulta de entrada, o Lookahead prevê representações latentes de possíveis respostas, dando uma "espiada" no que cada modelo diria sem gerar texto totalmente. Decisões mais inteligentes: essa previsão com reconhecimento de resposta torna o roteamento mais sensível ao contexto e preciso, especialmente para tarefas abertas ou orientadas por preferências. Aprendizado eficiente: é altamente eficiente em termos de dados, atingindo desempenho total com apenas 16% dos dados de treinamento em comparação com as linhas de base, e aprende melhores representações semânticas para roteamento. Design duplo: Funciona com variantes LM causais e mascaradas, generalizando em várias arquiteturas. Desempenho: supera os métodos de roteamento de última geração em sete benchmarks, com os maiores ganhos em tarefas criativas e diferenciadas. O Lookahead mostra que a adição de previsão generativa leve pode tornar os sistemas multimodelo mais adaptáveis e econômicos sem a necessidade de inferência completa do modelo.