Binary sökte i ett 512xH100-kluster (europeisk molnleverantör) för att hitta noden som dödar vår all-reduce. Minskade 64 noder till en felaktig nod. bandbredden hoppade från 50 GB/s tillbaka till 157 GB/s efter bytet... Dags att automatisera detta