LLM の先読みルーティング 完全な推論を行わずに、より多くの情報に基づいたルーティングを可能にするルーティングフレームワークであるLookaheadを提案します。 最先端製品に比べて平均7.7%のパフォーマンス向上を実現。 それが機能する理由は次のとおりです。 先読みは、マルチLLMシステムでルーティングするための新しいフレームワークであり、どのモデルが各クエリを処理するかを決定します。 キーアイデア: Lookahead は、入力クエリのみに基づいてルーティングするのではなく、潜在的な応答の潜在的な表現を予測し、テキストを完全に生成することなく、各モデルが何を言うかを「覗き見」します。 よりスマートな意思決定: この応答を意識した予測により、特にオープンエンドまたは好み主導のタスクの場合、ルーティングがより状況に応じた正確になります。 効率的な学習: データ効率が高く、ベースラインと比較してトレーニング データのわずか 16% で完全なパフォーマンスに達し、ルーティングのより優れたセマンティック表現を学習します。 デュアルデザイン:因果関係とマスクされたLMバリアントの両方で動作し、複数のアーキテクチャにまたがって一般化します。 パフォーマンス: 7 つのベンチマークで最先端のルーティング方法を上回り、微妙で創造的なタスクで最大の利益が得られます。 先読みは、軽量の生成的先見性を追加することで、完全なモデル推論を必要とせずに、マルチモデルシステムの適応性とコスト効率を高めることができることを示しています。