awq-quantization
✓Quantification du poids prenant en compte l'activation pour la compression LLM 4 bits avec une accélération 3x et une perte de précision minimale. À utiliser lors du déploiement de grands modèles (7B-70B) sur une mémoire GPU limitée, lorsque vous avez besoin d'une inférence plus rapide que GPTQ avec une meilleure préservation de la précision, ou pour des modèles multimodaux et optimisés par les instructions. Gagnant du prix du meilleur article MLSys 2024.
Installation
SKILL.md
4-bit quantization that preserves salient weights based on activation patterns, achieving 3x speedup with minimal accuracy loss.
Timing: 10-15 min for 7B, 1 hour for 70B models.
| Speedup (4-bit) | 2.5-3x | 2x | 1.5x | | Accuracy loss | <5% | 5-10% | 5-15% | | Calibration | Minimal (128-1K tokens) | More extensive | None | | Overfitting risk | Low | Higher | N/A | | Best for | Production inference | GPU inference | Easy integration | | vLLM support | Native | Yes | Limited |
Quantification du poids prenant en compte l'activation pour la compression LLM 4 bits avec une accélération 3x et une perte de précision minimale. À utiliser lors du déploiement de grands modèles (7B-70B) sur une mémoire GPU limitée, lorsque vous avez besoin d'une inférence plus rapide que GPTQ avec une meilleure préservation de la précision, ou pour des modèles multimodaux et optimisés par les instructions. Gagnant du prix du meilleur article MLSys 2024. Source : orchestra-research/ai-research-skills.
Faits (prêts à citer)
Champs et commandes stables pour les citations IA/recherche.
- Commande d'installation
npx skills add https://github.com/orchestra-research/ai-research-skills --skill awq-quantization- Catégorie
- </>Développement
- Vérifié
- ✓
- Première apparition
- 2026-02-11
- Mis à jour
- 2026-02-18
Réponses rapides
Qu'est-ce que awq-quantization ?
Quantification du poids prenant en compte l'activation pour la compression LLM 4 bits avec une accélération 3x et une perte de précision minimale. À utiliser lors du déploiement de grands modèles (7B-70B) sur une mémoire GPU limitée, lorsque vous avez besoin d'une inférence plus rapide que GPTQ avec une meilleure préservation de la précision, ou pour des modèles multimodaux et optimisés par les instructions. Gagnant du prix du meilleur article MLSys 2024. Source : orchestra-research/ai-research-skills.
Comment installer awq-quantization ?
Ouvrez votre terminal ou outil de ligne de commande (Terminal, iTerm, Windows Terminal, etc.) Copiez et exécutez cette commande : npx skills add https://github.com/orchestra-research/ai-research-skills --skill awq-quantization Une fois installé, le skill sera automatiquement configuré dans votre environnement de programmation IA et prêt à être utilisé dans Claude Code ou Cursor
Où se trouve le dépôt source ?
https://github.com/orchestra-research/ai-research-skills
Détails
- Catégorie
- </>Développement
- Source
- skills.sh
- Première apparition
- 2026-02-11