·awq-quantization
</>

awq-quantization

orchestra-research/ai-research-skills

用于 4 位 LLM 压缩的激活感知权重量化,加速速度提高 3 倍,精度损失最小。当在有限的 GPU 内存上部署大型模型 (7B-70B) 时、当您需要比 GPTQ 更快的推理速度和更好的精度保留时,或者用于指令调整和多模态模型时,请使用。 MLSys 2024 最佳论文奖获得者。

15安装·1热度·@orchestra-research

安装

$npx skills add https://github.com/orchestra-research/ai-research-skills --skill awq-quantization

SKILL.md

4-bit quantization that preserves salient weights based on activation patterns, achieving 3x speedup with minimal accuracy loss.

Timing: 10-15 min for 7B, 1 hour for 70B models.

| Speedup (4-bit) | 2.5-3x | 2x | 1.5x | | Accuracy loss | <5% | 5-10% | 5-15% | | Calibration | Minimal (128-1K tokens) | More extensive | None | | Overfitting risk | Low | Higher | N/A | | Best for | Production inference | GPU inference | Easy integration | | vLLM support | Native | Yes | Limited |

用于 4 位 LLM 压缩的激活感知权重量化,加速速度提高 3 倍,精度损失最小。当在有限的 GPU 内存上部署大型模型 (7B-70B) 时、当您需要比 GPTQ 更快的推理速度和更好的精度保留时,或者用于指令调整和多模态模型时,请使用。 MLSys 2024 最佳论文奖获得者。 来源:orchestra-research/ai-research-skills。

查看原文

可引用信息

为搜索与 AI 引用准备的稳定字段与命令。

安装命令
npx skills add https://github.com/orchestra-research/ai-research-skills --skill awq-quantization
分类
</>开发工具
认证
收录时间
2026-02-11
更新时间
2026-02-18

快速解答

什么是 awq-quantization?

用于 4 位 LLM 压缩的激活感知权重量化,加速速度提高 3 倍,精度损失最小。当在有限的 GPU 内存上部署大型模型 (7B-70B) 时、当您需要比 GPTQ 更快的推理速度和更好的精度保留时,或者用于指令调整和多模态模型时,请使用。 MLSys 2024 最佳论文奖获得者。 来源:orchestra-research/ai-research-skills。

如何安装 awq-quantization?

打开你的终端或命令行工具(如 Terminal、iTerm、Windows Terminal 等) 复制并运行以下命令:npx skills add https://github.com/orchestra-research/ai-research-skills --skill awq-quantization 安装完成后,技能将自动配置到你的 AI 编程环境中,可以在 Claude Code 或 Cursor 中使用

这个 Skill 的源码在哪?

https://github.com/orchestra-research/ai-research-skills

详情

分类
</>开发工具
来源
skills.sh
收录时间
2026-02-11