仅仅是为了好玩,这里展示了在 M3 Ultra 上使用 Qwen3 Next 80B 进行 32 次同时长上下文生成的效果。 使用 mlx-lm 中的新批量生成。 每个上下文的大小大约为 5k 个标记: