·awq-quantization
</>

awq-quantization

orchestra-research/ai-research-skills

アクティベーションを意識した重み量子化による 4 ビット LLM 圧縮により、3 倍のスピードアップと最小限の精度損失が実現します。限られた GPU メモリに大規模なモデル (7B ~ 70B) をデプロイする場合、精度を維持しながら GPTQ よりも高速な推論が必要な場合、または命令調整されたマルチモーダル モデルに使用します。 MLSys 2024 Best Paper Award受賞。

15インストール·1トレンド·@orchestra-research

インストール

$npx skills add https://github.com/orchestra-research/ai-research-skills --skill awq-quantization

SKILL.md

4-bit quantization that preserves salient weights based on activation patterns, achieving 3x speedup with minimal accuracy loss.

Timing: 10-15 min for 7B, 1 hour for 70B models.

| Speedup (4-bit) | 2.5-3x | 2x | 1.5x | | Accuracy loss | <5% | 5-10% | 5-15% | | Calibration | Minimal (128-1K tokens) | More extensive | None | | Overfitting risk | Low | Higher | N/A | | Best for | Production inference | GPU inference | Easy integration | | vLLM support | Native | Yes | Limited |

アクティベーションを意識した重み量子化による 4 ビット LLM 圧縮により、3 倍のスピードアップと最小限の精度損失が実現します。限られた GPU メモリに大規模なモデル (7B ~ 70B) をデプロイする場合、精度を維持しながら GPTQ よりも高速な推論が必要な場合、または命令調整されたマルチモーダル モデルに使用します。 MLSys 2024 Best Paper Award受賞。 ソース: orchestra-research/ai-research-skills。

原文を見る

引用可能な情報

AI/検索での引用用の安定したフィールドとコマンド。

インストールコマンド
npx skills add https://github.com/orchestra-research/ai-research-skills --skill awq-quantization
カテゴリ
</>開発ツール
認証済み
初回登録
2026-02-11
更新日
2026-02-18

クイックアンサー

awq-quantization とは?

アクティベーションを意識した重み量子化による 4 ビット LLM 圧縮により、3 倍のスピードアップと最小限の精度損失が実現します。限られた GPU メモリに大規模なモデル (7B ~ 70B) をデプロイする場合、精度を維持しながら GPTQ よりも高速な推論が必要な場合、または命令調整されたマルチモーダル モデルに使用します。 MLSys 2024 Best Paper Award受賞。 ソース: orchestra-research/ai-research-skills。

awq-quantization のインストール方法は?

ターミナルまたはコマンドラインツール(Terminal、iTerm、Windows Terminal など)を開きます このコマンドをコピーして実行します: npx skills add https://github.com/orchestra-research/ai-research-skills --skill awq-quantization インストール後、スキルは自動的に AI コーディング環境に設定され、Claude Code や Cursor で使用できるようになります

ソースリポジトリはどこですか?

https://github.com/orchestra-research/ai-research-skills