j'ai effectué une recherche binaire sur un cluster 512xh100 (fournisseur de cloud européen) pour trouver le nœud qui tue notre all-reduce. j'ai réduit 64 nœuds à un seul nœud défectueux. la bande passante est passée de 50 Go/s à 157 Go/s après l'échange... il est temps d'automatiser cela