O binário pesquisou um cluster 512xh100 (provedor de nuvem europeu) para encontrar o nó que mata nosso all-reduce. Reduzimos 64 nós a um nó defeituoso. a largura de banda saltou de 50 GB/s para 157 GB/s após a troca... Hora de automatizar isso