ho effettuato una ricerca binaria su un cluster 512xh100 (fornitore di cloud europeo) per trovare il nodo che stava causando problemi al nostro all-reduce. ho ridotto 64 nodi a un solo nodo difettoso. la larghezza di banda è passata da 50GB/s a 157GB/s dopo lo scambio... è ora di automatizzare questo