Registro de Pesquisa Dia 0: Dias DiLoCo Decidi fazer uma tese sobre treinamento distribuído de baixa comunicação. Essencialmente, como podemos treinar grandes modelos com eficiência em nós distribuídos e não ser totalmente destruídos pela latência e largura de banda da rede? (1/n)