E se você pudesse fazer a um chatbot uma pergunta do tamanho de uma enciclopédia inteira e obter uma resposta em tempo real? Consultas de token de vários milhões com 32x mais usuários agora são possíveis com o Helix Parallelism, uma inovação da #NVIDIAResearch que impulsiona a inferência em grande escala. 🔗