oLLM 是一個輕量級的 Python 庫,用於本地大型上下文 LLM 推理。 在約 $200 的消費者 GPU 上運行 gpt-oss-20B、Qwen3-next-80B、Llama-3.1-8B,只需 8GB VRAM。這是沒有任何量化的 - 只有 fp16/bf16 精度。 100% 開源。