Routing z wyprzedzeniem dla LLM-ów Proponuje Lookahead, ramy routingu, które umożliwiają bardziej świadome kierowanie bez pełnej inferencji. Osiąga średni wzrost wydajności o 7,7% w porównaniu do stanu techniki. Oto dlaczego to działa: Lookahead to nowa struktura do routingu w systemach multi-LLM, decydująca, który model powinien obsługiwać każde zapytanie. Kluczowa idea: Zamiast kierować się tylko na podstawie zapytania wejściowego, Lookahead przewiduje ukryte reprezentacje potencjalnych odpowiedzi, dając mu „podgląd” na to, co każdy model mógłby powiedzieć, bez pełnego generowania tekstu. Inteligentniejsze decyzje: Ta przewidywalna odpowiedź sprawia, że routing jest bardziej wrażliwy na kontekst i dokładny, szczególnie w przypadku zadań otwartych lub opartych na preferencjach. Efektywne uczenie: Jest bardzo efektywny pod względem danych, osiągając pełną wydajność przy zaledwie 16% danych treningowych w porównaniu do bazowych, i lepiej uczy semantycznych reprezentacji do routingu. Podwójny projekt: Działa zarówno z wariantami LM przyczynowymi, jak i maskowanymi, uogólniając na wiele architektur. Wydajność: Przewyższa metody routingu stanu techniki w siedmiu benchmarkach, z największymi zyskami w złożonych, kreatywnych zadaniach. Lookahead pokazuje, że dodanie lekkiego generatywnego wglądu może sprawić, że systemy wielomodelowe będą bardziej adaptacyjne i efektywne kosztowo, bez potrzeby pełnej inferencji modelu.