·awq-quantization

</>

awq-quantization

✓

orchestra-research/ai-research-skills

用于 4 位 LLM 压缩的激活感知权重量化，加速速度提高 3 倍，精度损失最小。当在有限的 GPU 内存上部署大型模型 (7B-70B) 时、当您需要比 GPTQ 更快的推理速度和更好的精度保留时，或者用于指令调整和多模态模型时，请使用。 MLSys 2024 最佳论文奖获得者。

orchestra-research·awq·quantization

15安装·1热度·@orchestra-research

安装

$npx skills add https://github.com/orchestra-research/ai-research-skills --skill awq-quantization

详情

分类: </>开发工具
来源: skills.sh
收录时间: 2026-02-11

相关 Skills

ml-paper-writing

serving-llms-vllm