awq-quantization
✓アクティベーションを意識した重み量子化による 4 ビット LLM 圧縮により、3 倍のスピードアップと最小限の精度損失が実現します。限られた GPU メモリに大規模なモデル (7B ~ 70B) をデプロイする場合、精度を維持しながら GPTQ よりも高速な推論が必要な場合、または命令調整されたマルチモーダル モデルに使用します。 MLSys 2024 Best Paper Award受賞。
SKILL.md
4-bit quantization that preserves salient weights based on activation patterns, achieving 3x speedup with minimal accuracy loss.
Timing: 10-15 min for 7B, 1 hour for 70B models.
| Speedup (4-bit) | 2.5-3x | 2x | 1.5x | | Accuracy loss | <5% | 5-10% | 5-15% | | Calibration | Minimal (128-1K tokens) | More extensive | None | | Overfitting risk | Low | Higher | N/A | | Best for | Production inference | GPU inference | Easy integration | | vLLM support | Native | Yes | Limited |
アクティベーションを意識した重み量子化による 4 ビット LLM 圧縮により、3 倍のスピードアップと最小限の精度損失が実現します。限られた GPU メモリに大規模なモデル (7B ~ 70B) をデプロイする場合、精度を維持しながら GPTQ よりも高速な推論が必要な場合、または命令調整されたマルチモーダル モデルに使用します。 MLSys 2024 Best Paper Award受賞。 ソース: orchestra-research/ai-research-skills。
引用可能な情報
AI/検索での引用用の安定したフィールドとコマンド。
- インストールコマンド
npx skills add https://github.com/orchestra-research/ai-research-skills --skill awq-quantization- カテゴリ
- </>開発ツール
- 認証済み
- ✓
- 初回登録
- 2026-02-11
- 更新日
- 2026-02-18
クイックアンサー
awq-quantization とは?
アクティベーションを意識した重み量子化による 4 ビット LLM 圧縮により、3 倍のスピードアップと最小限の精度損失が実現します。限られた GPU メモリに大規模なモデル (7B ~ 70B) をデプロイする場合、精度を維持しながら GPTQ よりも高速な推論が必要な場合、または命令調整されたマルチモーダル モデルに使用します。 MLSys 2024 Best Paper Award受賞。 ソース: orchestra-research/ai-research-skills。
awq-quantization のインストール方法は?
ターミナルまたはコマンドラインツール(Terminal、iTerm、Windows Terminal など)を開きます このコマンドをコピーして実行します: npx skills add https://github.com/orchestra-research/ai-research-skills --skill awq-quantization インストール後、スキルは自動的に AI コーディング環境に設定され、Claude Code や Cursor で使用できるようになります
ソースリポジトリはどこですか?
https://github.com/orchestra-research/ai-research-skills
詳細
- カテゴリ
- </>開発ツール
- ソース
- skills.sh
- 初回登録
- 2026-02-11