Registo de Pesquisa Dia 0: Dias DiLoCo Decidi fazer uma tese sobre treinamento distribuído de baixa comunicação. Essencialmente, como podemos treinar grandes modelos de forma eficiente em nós distribuídos e não sermos completamente destruídos pela latência de rede e largura de banda? (1/n)