binaire zoekopdracht uitgevoerd op een 512xh100 cluster (Europese cloudprovider) om de node te vinden die onze all-reduce verstoorde. 64 nodes teruggebracht tot één slechte node. de bandbreedte steeg van 50GB/s terug naar 157GB/s na de wissel... tijd om dit te automatiseren