Presentiamo SparseLoCo: un metodo efficiente nella comunicazione per il pre-addestramento di LLM. TL;DR: Sfruttiamo la sparsificazione Top-k + feedback sugli errori con i rari passi esterni di DiLoCo—comunicando solo l'1-3% dei gradienti con quantizzazione a 2 bit—superando DiLoCo e DeMo. 1/N, ArXiv: Github:
38,02K