đã tìm kiếm nhị phân một cụm 512xh100 (nhà cung cấp đám mây châu Âu) để tìm nút đang giết chết quá trình all-reduce của chúng tôi. đã thu hẹp 64 nút xuống còn một nút xấu. băng thông đã tăng từ 50GB/s trở lại 157GB/s sau khi hoán đổi... đã đến lúc tự động hóa điều này.