oLLMは、ローカルの大規模コンテキストLLM推論のための軽量のPythonライブラリです。 gpt-oss-20B、Qwen3-next-80B、Llama-3.1-8Bを、わずか8GB VRAMを搭載した~200ドルのコンシューマーGPUで実行します。そして、これは量子化なしで、fp16/bf16 の精度のみです。 100%オープンソース。