gptq
LLM 的训练后 4 位量化,精度损失最小。当您需要 4 倍内存减少且困惑度降低 <2% 时,或者需要比 FP16 更快的推理(3-4 倍加速)时,可用于在消费类 GPU 上部署大型模型(70B、405B)。与变压器和 PEFT 集成以进行 QLoRA 微调。
SKILL.md
Post-training quantization method that compresses LLMs to 4-bit with minimal accuracy loss using group-wise quantization.
| Group Size | Model Size | Accuracy | Speed | Recommendation |
| -1 (per-column) | Smallest | Best | Slowest | Research only | | 32 | Smaller | Better | Slower | High accuracy needed | | 128 | Medium | Good | Fast | Recommended default | | 256 | Larger | Lower | Faster | Speed critical | | 1024 | Largest | Lowest | Fastest | Not recommended |
LLM 的训练后 4 位量化,精度损失最小。当您需要 4 倍内存减少且困惑度降低 <2% 时,或者需要比 FP16 更快的推理(3-4 倍加速)时,可用于在消费类 GPU 上部署大型模型(70B、405B)。与变压器和 PEFT 集成以进行 QLoRA 微调。 来源:ovachiever/droid-tings。
可引用信息
为搜索与 AI 引用准备的稳定字段与命令。
- 安装命令
npx skills add https://github.com/ovachiever/droid-tings --skill gptq- 分类
- </>开发工具
- 认证
- —
- 收录时间
- 2026-02-01
- 更新时间
- 2026-02-18
快速解答
什么是 gptq?
LLM 的训练后 4 位量化,精度损失最小。当您需要 4 倍内存减少且困惑度降低 <2% 时,或者需要比 FP16 更快的推理(3-4 倍加速)时,可用于在消费类 GPU 上部署大型模型(70B、405B)。与变压器和 PEFT 集成以进行 QLoRA 微调。 来源:ovachiever/droid-tings。
如何安装 gptq?
打开你的终端或命令行工具(如 Terminal、iTerm、Windows Terminal 等) 复制并运行以下命令:npx skills add https://github.com/ovachiever/droid-tings --skill gptq 安装完成后,技能将自动配置到你的 AI 编程环境中,可以在 Claude Code 或 Cursor 中使用
这个 Skill 的源码在哪?
https://github.com/ovachiever/droid-tings
详情
- 分类
- </>开发工具
- 来源
- user
- 收录时间
- 2026-02-01