對一個 512xh100 的叢集(歐洲雲端供應商)進行二分搜尋,以找出導致我們的全減少操作失敗的節點。將 64 個節點縮小到一個壞節點。交換後帶寬從 50GB/s 跳回 157GB/s... 是時候自動化這個過程了。