oLLM é uma biblioteca Python leve para inferência local de LLM de grande contexto. Execute gpt-oss-20B, Qwen3-next-80B, Llama-3.1-8B em uma GPU de consumidor de ~$200 com apenas 8GB de VRAM. E isso é sem nenhuma quantização - apenas precisão fp16/bf16. 100% Open source.