Просто для развлечения, вот как выглядят 32 одновременных генерации длинного контекста с Qwen3 Next 80B на M3 Ultra. Используя новую пакетную генерацию в mlx-lm. Размер контекста для каждой составляет около 5k токенов: