本日、InferenceMAX をリリースします。 Nvidia、AMD、OpenAI、Microsoft、Pytorch、SGLang、vLLM、Oracle、CoreWeave、TogetherAI、Nebius、Crusoe、HPE、SuperMicro、Dell からサポートを受けています 数百の GPU にわたる最新のソフトウェア (vLLM、SGLang など) で毎日実行され、現実世界の LLM 推論ベンチマークを作成するために毎日 10 百万ドルのインフラストラクチャが稼働しています InferenceMAX は、AI インフラストラクチャを使用して、現代の主要な質問に答えます。 異なるインフラストラクチャで容量のMWあたりいくつのトークンが生成されますか? 100万の費用はいくらですか? 実際のレイテンシーとスループットのトレードオフは何ですか? H100、H200、B200、GB200、MI300X、MI325X、MI355Xをカバーすることで、世界中で展開されているFLOPSの80%以上をカバーしています。 間もなく、Google TPUとAmazon Trainiumが追加され、99%を超えるでしょう。
はっきり言っておきますが、これはSemiAnalysisの技術スタッフからの大きな力でした。 彼らはここで輝く星です。 彼らは、人々がインフラ購入の意思決定を行う方法を再構築すると思うことをしました。 また、Nvidia と AMD にも心から感謝し、彼らは数え切れないほどの努力をしてくれました。
13.38K