Dziennik badań Dzień 0: Dni DiLoCo Postanowiłem napisać pracę na temat rozproszonego treningu o niskiej komunikacji. Zasadniczo, jak możemy efektywnie trenować duże modele na rozproszonych węzłach, nie będąc całkowicie zniszczonym przez opóźnienia sieciowe i przepustowość? (1/n)