即使在全批次梯度下,深度學習優化器也違背了經典優化理論,因為它們在*穩定性邊緣*運作。 與@alex_damian_一起,我們介紹了「中心流」:一種分析這些動態的理論工具,能對真實神經網絡進行準確的定量預測。