Registro de investigación Día 0: Días de DiLoCo Decidí hacer una tesis sobre entrenamiento distribuido de baja comunicación. Esencialmente, ¿cómo podemos entrenar modelos grandes de manera eficiente a través de nodos distribuidos y no ser completamente destruidos por la latencia de la red y el ancho de banda? (1/n)