一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

oLLM 是一个轻量级的 Python 库，用于本地大上下文 LLM 推理。在大约 200 美元的消费级 GPU 上运行 gpt-oss-20B、Qwen3-next-80B、Llama-3.1-8B，仅需 8GB VRAM。这是在没有任何量化的情况下 - 仅使用 fp16/bf16 精度。 100% 开源。