oLLM é uma biblioteca Python leve para inferência LLM local de grande contexto. Execute gpt-oss-20B, Qwen3-next-80B, Llama-3.1-8B em GPU de consumo de ~ $ 200 com apenas 8 GB de VRAM. E isso sem qualquer quantização - apenas precisão fp16 / bf16. 100% Opensource.