·awq-quantization

</>

awq-quantization

✓

orchestra-research/ai-research-skills

用於 4 位元 LLM 壓縮的激活感知權重量化，加速速度提高 3 倍，精度損失最小。當在有限的 GPU 記憶體上部署大型模型 (7B-70B) 時、當您需要比 GPTQ 更快的推理速度和更好的精度保留時，或者用於指令調整和多模態模型時，請使用。 MLSys 2024 最佳論文獎得主。

orchestra-research·awq·quantization

15安裝·1熱度·@orchestra-research

安裝

$npx skills add https://github.com/orchestra-research/ai-research-skills --skill awq-quantization

詳情

分類: </>開發工具
來源: skills.sh
收錄時間: 2026-02-11

相關 Skills

ml-paper-writing

serving-llms-vllm