Журнал исследований День 0: Дни DiLoCo Я решил написать диссертацию о распределенном обучении с низкой связью. По сути, как мы можем эффективно обучать большие модели на распределенных узлах и не быть полностью уничтоженными задержкой сети и пропускной способностью? (1/n)