Forschungsprotokoll Tag 0: DiLoCo Tage Ich habe beschlossen, eine Thesis über verteiltes Low-Communication-Training zu schreiben. Im Wesentlichen, wie können wir große Modelle effizient über verteilte Knoten trainieren, ohne von Netzwerk-Latenz und Bandbreite völlig zerstört zu werden? (1/n)