يوم سجل البحث 0: أيام DiLoCo قررت أن أطروحة حول التدريب الموزع منخفض التواصل. بشكل أساسي ، كيف يمكننا تدريب النماذج الكبيرة بكفاءة عبر العقد الموزعة وعدم تدميرها تماما بسبب زمن انتقال الشبكة وعرض النطاق الترددي؟ (1 / ن)