День 0 журналу досліджень: Дні DiLoCo Я вирішив висунути дисертацію про розподілене навчання з низьким рівнем комунікації. По суті, як ми можемо ефективно тренувати великі моделі на розподілених вузлах і не бути повністю знищеними затримкою мережі та пропускною здатністю? (1/п)