Registro de investigación Día 0: Días DiLoCo Decidí hacer una tesis sobre la capacitación distribuida de baja comunicación. Esencialmente, ¿cómo podemos entrenar grandes modelos de manera eficiente en nodos distribuidos y no ser destruidos por completo por la latencia y el ancho de banda de la red? (1/n)