·awq-quantization
</>

awq-quantization

orchestra-research/ai-research-skills

Quantification du poids prenant en compte l'activation pour la compression LLM 4 bits avec une accélération 3x et une perte de précision minimale. À utiliser lors du déploiement de grands modèles (7B-70B) sur une mémoire GPU limitée, lorsque vous avez besoin d'une inférence plus rapide que GPTQ avec une meilleure préservation de la précision, ou pour des modèles multimodaux et optimisés par les instructions. Gagnant du prix du meilleur article MLSys 2024.

15Installations·1Tendance·@orchestra-research

Installation

$npx skills add https://github.com/orchestra-research/ai-research-skills --skill awq-quantization

SKILL.md

4-bit quantization that preserves salient weights based on activation patterns, achieving 3x speedup with minimal accuracy loss.

Timing: 10-15 min for 7B, 1 hour for 70B models.

| Speedup (4-bit) | 2.5-3x | 2x | 1.5x | | Accuracy loss | <5% | 5-10% | 5-15% | | Calibration | Minimal (128-1K tokens) | More extensive | None | | Overfitting risk | Low | Higher | N/A | | Best for | Production inference | GPU inference | Easy integration | | vLLM support | Native | Yes | Limited |

Quantification du poids prenant en compte l'activation pour la compression LLM 4 bits avec une accélération 3x et une perte de précision minimale. À utiliser lors du déploiement de grands modèles (7B-70B) sur une mémoire GPU limitée, lorsque vous avez besoin d'une inférence plus rapide que GPTQ avec une meilleure préservation de la précision, ou pour des modèles multimodaux et optimisés par les instructions. Gagnant du prix du meilleur article MLSys 2024. Source : orchestra-research/ai-research-skills.

Voir l'original

Faits (prêts à citer)

Champs et commandes stables pour les citations IA/recherche.

Commande d'installation
npx skills add https://github.com/orchestra-research/ai-research-skills --skill awq-quantization
Catégorie
</>Développement
Vérifié
Première apparition
2026-02-11
Mis à jour
2026-02-18

Réponses rapides

Qu'est-ce que awq-quantization ?

Quantification du poids prenant en compte l'activation pour la compression LLM 4 bits avec une accélération 3x et une perte de précision minimale. À utiliser lors du déploiement de grands modèles (7B-70B) sur une mémoire GPU limitée, lorsque vous avez besoin d'une inférence plus rapide que GPTQ avec une meilleure préservation de la précision, ou pour des modèles multimodaux et optimisés par les instructions. Gagnant du prix du meilleur article MLSys 2024. Source : orchestra-research/ai-research-skills.

Comment installer awq-quantization ?

Ouvrez votre terminal ou outil de ligne de commande (Terminal, iTerm, Windows Terminal, etc.) Copiez et exécutez cette commande : npx skills add https://github.com/orchestra-research/ai-research-skills --skill awq-quantization Une fois installé, le skill sera automatiquement configuré dans votre environnement de programmation IA et prêt à être utilisé dans Claude Code ou Cursor

Où se trouve le dépôt source ?

https://github.com/orchestra-research/ai-research-skills

Détails

Catégorie
</>Développement
Source
skills.sh
Première apparition
2026-02-11