Binary buscó en un clúster 512xh100 (proveedor de nube europeo) para encontrar el nodo que mata a nuestro all-reduce. redujo 64 nodos a un nodo defectuoso. el ancho de banda saltó de 50 GB/s a 157 GB/s después del intercambio... Es hora de automatizar esto