oLLM è una libreria Python leggera per l'inferenza locale di LLM a grande contesto. Esegui gpt-oss-20B, Qwen3-next-80B, Llama-3.1-8B su una GPU consumer da ~$200 con solo 8GB di VRAM. E questo è senza alcuna quantizzazione - solo precisione fp16/bf16. 100% Opensource.