oLLM 是一个轻量级的 Python 库,用于本地大上下文 LLM 推理。 在大约 200 美元的消费级 GPU 上运行 gpt-oss-20B、Qwen3-next-80B、Llama-3.1-8B,仅需 8GB VRAM。这是在没有任何量化的情况下 - 仅使用 fp16/bf16 精度。 100% 开源。