Ich habe einen binären Suchlauf in einem 512xh100-Cluster (europäischer Cloud-Anbieter) durchgeführt, um den Knoten zu finden, der unser All-Reduce killt. Ich habe 64 Knoten auf einen schlechten Knoten eingegrenzt. Die Bandbreite sprang nach dem Tausch von 50GB/s auf 157GB/s... Zeit, das zu automatisieren.