oLLM is een lichte Python-bibliotheek voor lokale inferentie van LLM met een groot context. Voer gpt-oss-20B, Qwen3-next-80B, Llama-3.1-8B uit op een consumenten-GPU van ~$200 met slechts 8GB VRAM. En dit is zonder enige quantisatie - alleen fp16/bf16 precisie. 100% Opensource.