oLLM on kevyt Python-kirjasto paikalliseen suuren kontekstin LLM-päättelyyn. Käytä gpt-oss-20B, Qwen3-next-80B, Llama-3.1-8B ~200 dollarin kuluttajanäytönohjaimella vain 8 Gt:n VRAM-muistilla. Ja tämä on ilman kvantisointia - vain fp16/bf16-tarkkuus. 100 % avoimen lähdekoodin.