Journal de recherche Jour 0 : Jours DiLoCo J'ai décidé de rédiger une thèse sur l'entraînement distribué à faible communication. Essentiellement, comment pouvons-nous entraîner de grands modèles de manière efficace à travers des nœuds distribués sans être complètement détruits par la latence réseau et la bande passante ? (1/n)