Binary mencari cluster 512xH100 (penyedia cloud Eropa) untuk menemukan node yang membunuh All-Reduce kami. mempersempit 64 node menjadi satu node yang buruk. bandwidth melonjak dari 50GB/s kembali menjadi 157GB/s setelah swap... Saatnya mengotomatiskan ini