fiz uma busca binária em um cluster 512xh100 (provedor de nuvem europeu) para encontrar o nó que estava matando nosso all-reduce. reduzi 64 nós a um nó problemático. a largura de banda saltou de 50GB/s de volta para 157GB/s após a troca... hora de automatizar isso