oLLM je odlehčená knihovna Pythonu pro lokální velkokontextovou LLM inferenci. Spusťte gpt-oss-20B, Qwen3-next-80B, Llama-3.1-8B na spotřebitelském GPU za ~200 $ s pouhými 8 GB VRAM. A to je bez jakékoliv kvantizace - pouze přesnost fp16/bf16. 100% Opensource.