热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
总是很高兴看到更多的工作扩展 diloco 并减少预训练的带宽需求!

8月22日 10:13
介绍SparseLoCo:一种通信效率高的LLM预训练方法。
简而言之:我们利用Top-k稀疏化 + 错误反馈与DiLoCo的不频繁外部步骤——仅传递1-3%的梯度,使用2位量化——超越了DiLoCo和DeMo。1/N,
ArXiv:
Github:

4.9K
热门
排行
收藏