Apresentando o SparseLoCo: um método eficiente em comunicação para pré-treinamento de LLM. Resumo: Aproveitamos a esparsificação Top-k + feedback de erro com os passos externos infrequentes do DiLoCo—comunicando apenas 1–3% dos gradientes com quantização de 2 bits—superando o DiLoCo e o DeMo. 1/N, ArXiv: Github:
38,02K