研究ログ 0 日目: DiLoCo Days 私は、分散型の低コミュニケーショントレーニングに関する論文を書くことにしました。基本的に、分散ノード間で大規模なモデルを効率的にトレーニングし、ネットワークの遅延と帯域幅によって完全に破壊されないようにするにはどうすればよいでしょうか?(1/n)