провел бинарный поиск по кластеру 512xh100 (европейский облачный провайдер), чтобы найти узел, который убивает наш all-reduce. сузил 64 узла до одного плохого узла. пропускная способность выросла с 50 ГБ/с до 157 ГБ/с после замены... время автоматизировать это