oLLM adalah pustaka Python yang ringan untuk inferensi LLM konteks besar lokal. Jalankan gpt-oss-20B, Qwen3-next-80B, Llama-3.1-8B pada GPU konsumen ~$200 hanya dengan VRAM 8GB. Dan ini tanpa kuantisasi apa pun - hanya presisi fp16 / bf16. 100% Sumber Terbuka.