今天我们推出 InferenceMAX! 我们得到了 Nvidia、AMD、OpenAI、Microsoft、Pytorch、SGLang、vLLM、Oracle、CoreWeave、TogetherAI、Nebius、Crusoe、HPE、SuperMicro、Dell 的支持。 它每天在最新的软件(vLLM、SGLang 等)上运行,数百万美元的基础设施每天都在运转,以创建真实世界的 LLM 推理基准。 InferenceMAX 用 AI 基础设施回答我们时代的重大问题。 在不同的基础设施上,每兆瓦的容量生成多少个 Token? 一百万个 Token 的成本是多少? 真实的延迟与吞吐量的权衡是什么? 我们覆盖了全球超过 80% 部署的 FLOPS,涵盖了 H100、H200、B200、GB200、MI300X、MI325X 和 MI355X。 不久我们将通过添加 Google TPU 和 Amazon Trainium 达到 99% 以上的覆盖率。
明确来说,这对SemiAnalysis的技术团队来说是一个巨大的挑战。 他们是这里的明星。 他们做了一件我认为将重塑人们基础设施采购决策的事情。 同时也要感谢Nvidia和AMD,以及他们的工程师们付出的无数小时的努力。
13.39K