華為研究院剛剛在 Hugging Face 上揭示了 SINQ 這是一種新穎的無需校準的量化技術,能夠實現最先進的 LLM 性能,同時大幅減少內存使用。