Сьогодні ми запускаємо InferenceMAX! У нас є підтримка від Nvidia, AMD, OpenAI, Microsoft, Pytorch, SGLang, vLLM, Oracle, CoreWeave, TogetherAI, Nebius, Crusoe, HPE, SuperMicro, Dell Він щодня працює на новітньому програмному забезпеченні (vLLM, SGLang тощо) на сотнях графічних процесорів, інфраструктура вартістю 10 мільйонів доларів щодня муркоче для створення реальних тестів LLM Inference InferenceMAX відповідає на головні питання сучасності за допомогою AI Infrastructure. Скільки токенів генерується на МВт потужності на різній інфраструктурі? Скільки коштує мільйон токів? Яке співвідношення між реальною затримкою та пропускною здатністю? Ми маємо покриття понад 80% розгорнутих FLOPS по всьому світу, охоплюючи H100, H200, B200, GB200, MI300X, MI325X і MI355X. Скоро ми перевищимо 99% завдяки додаванню Google TPU та Amazon Trainium.
Щоб було зрозуміло, це був величезний підйом з боку технічного персоналу SemiAnalysis. Вони тут і є сяючими зірками. Вони зробили щось, що, на мою думку, змінить те, як люди приймають рішення про покупку інфраструктури. Також величезне спасибі Nvidia та AMD, і вони доклали незліченну кількість годин зусиль.
13,39K