realicé una búsqueda binaria en un clúster de 512xh100 (proveedor de nube europeo) para encontrar el nodo que estaba causando problemas en nuestro all-reduce. reduje 64 nodos a un nodo defectuoso. el ancho de banda saltó de 50GB/s a 157GB/s después del cambio... es hora de automatizar esto