·awq-quantization
</>

awq-quantization

orchestra-research/ai-research-skills

Aktivierungsbewusste Gewichtsquantisierung für 4-Bit-LLM-Komprimierung mit 3-facher Beschleunigung und minimalem Genauigkeitsverlust. Verwenden Sie diese Option, wenn Sie große Modelle (7B-70B) auf begrenztem GPU-Speicher bereitstellen, wenn Sie eine schnellere Inferenz als GPTQ mit besserer Genauigkeitserhaltung benötigen, oder für anweisungsabgestimmte und multimodale Modelle. Gewinner des MLSys 2024 Best Paper Award.

15Installationen·1Trend·@orchestra-research

Installation

$npx skills add https://github.com/orchestra-research/ai-research-skills --skill awq-quantization

SKILL.md

4-bit quantization that preserves salient weights based on activation patterns, achieving 3x speedup with minimal accuracy loss.

Timing: 10-15 min for 7B, 1 hour for 70B models.

| Speedup (4-bit) | 2.5-3x | 2x | 1.5x | | Accuracy loss | <5% | 5-10% | 5-15% | | Calibration | Minimal (128-1K tokens) | More extensive | None | | Overfitting risk | Low | Higher | N/A | | Best for | Production inference | GPU inference | Easy integration | | vLLM support | Native | Yes | Limited |

Aktivierungsbewusste Gewichtsquantisierung für 4-Bit-LLM-Komprimierung mit 3-facher Beschleunigung und minimalem Genauigkeitsverlust. Verwenden Sie diese Option, wenn Sie große Modelle (7B-70B) auf begrenztem GPU-Speicher bereitstellen, wenn Sie eine schnellere Inferenz als GPTQ mit besserer Genauigkeitserhaltung benötigen, oder für anweisungsabgestimmte und multimodale Modelle. Gewinner des MLSys 2024 Best Paper Award. Quelle: orchestra-research/ai-research-skills.

Original anzeigen

Fakten (zitierbereit)

Stabile Felder und Befehle für KI/Such-Zitate.

Installationsbefehl
npx skills add https://github.com/orchestra-research/ai-research-skills --skill awq-quantization
Kategorie
</>Entwicklung
Verifiziert
Erstes Auftreten
2026-02-11
Aktualisiert
2026-02-18

Schnelle Antworten

Was ist awq-quantization?

Aktivierungsbewusste Gewichtsquantisierung für 4-Bit-LLM-Komprimierung mit 3-facher Beschleunigung und minimalem Genauigkeitsverlust. Verwenden Sie diese Option, wenn Sie große Modelle (7B-70B) auf begrenztem GPU-Speicher bereitstellen, wenn Sie eine schnellere Inferenz als GPTQ mit besserer Genauigkeitserhaltung benötigen, oder für anweisungsabgestimmte und multimodale Modelle. Gewinner des MLSys 2024 Best Paper Award. Quelle: orchestra-research/ai-research-skills.

Wie installiere ich awq-quantization?

Öffnen Sie Ihr Terminal oder Kommandozeilen-Tool (Terminal, iTerm, Windows Terminal, etc.) Kopieren Sie diesen Befehl und führen Sie ihn aus: npx skills add https://github.com/orchestra-research/ai-research-skills --skill awq-quantization Nach der Installation wird der Skill automatisch in Ihrer KI-Programmierumgebung konfiguriert und ist bereit zur Verwendung in Claude Code oder Cursor

Wo ist das Quell-Repository?

https://github.com/orchestra-research/ai-research-skills