przeprowadzono wyszukiwanie binarne w klastrze 512xh100 (europejski dostawca chmury), aby znaleźć węzeł, który zabijał nasz all-reduce. zawężono 64 węzły do jednego złego węzła. przepustowość skoczyła z 50GB/s z powrotem do 157GB/s po wymianie... czas to zautomatyzować