gptq
4-Bit-Quantisierung nach dem Training für LLMs mit minimalem Genauigkeitsverlust. Verwenden Sie diese Option für die Bereitstellung großer Modelle (70B, 405B) auf Consumer-GPUs, wenn Sie eine 4-fache Speicherreduzierung mit einer Perplexitätsverschlechterung von <2 % benötigen, oder für eine schnellere Inferenz (3-4-fache Beschleunigung) im Vergleich zu FP16. Lässt sich mit Transformatoren und PEFT zur QLoRA-Feinabstimmung integrieren.
Installation
SKILL.md
Post-training quantization method that compresses LLMs to 4-bit with minimal accuracy loss using group-wise quantization.
| Group Size | Model Size | Accuracy | Speed | Recommendation |
| -1 (per-column) | Smallest | Best | Slowest | Research only | | 32 | Smaller | Better | Slower | High accuracy needed | | 128 | Medium | Good | Fast | Recommended default | | 256 | Larger | Lower | Faster | Speed critical | | 1024 | Largest | Lowest | Fastest | Not recommended |
4-Bit-Quantisierung nach dem Training für LLMs mit minimalem Genauigkeitsverlust. Verwenden Sie diese Option für die Bereitstellung großer Modelle (70B, 405B) auf Consumer-GPUs, wenn Sie eine 4-fache Speicherreduzierung mit einer Perplexitätsverschlechterung von <2 % benötigen, oder für eine schnellere Inferenz (3-4-fache Beschleunigung) im Vergleich zu FP16. Lässt sich mit Transformatoren und PEFT zur QLoRA-Feinabstimmung integrieren. Quelle: ovachiever/droid-tings.
Fakten (zitierbereit)
Stabile Felder und Befehle für KI/Such-Zitate.
- Installationsbefehl
npx skills add https://github.com/ovachiever/droid-tings --skill gptq- Quelle
- ovachiever/droid-tings
- Kategorie
- </>Entwicklung
- Verifiziert
- —
- Erstes Auftreten
- 2026-02-01
- Aktualisiert
- 2026-02-18
Schnelle Antworten
Was ist gptq?
4-Bit-Quantisierung nach dem Training für LLMs mit minimalem Genauigkeitsverlust. Verwenden Sie diese Option für die Bereitstellung großer Modelle (70B, 405B) auf Consumer-GPUs, wenn Sie eine 4-fache Speicherreduzierung mit einer Perplexitätsverschlechterung von <2 % benötigen, oder für eine schnellere Inferenz (3-4-fache Beschleunigung) im Vergleich zu FP16. Lässt sich mit Transformatoren und PEFT zur QLoRA-Feinabstimmung integrieren. Quelle: ovachiever/droid-tings.
Wie installiere ich gptq?
Öffnen Sie Ihr Terminal oder Kommandozeilen-Tool (Terminal, iTerm, Windows Terminal, etc.) Kopieren Sie diesen Befehl und führen Sie ihn aus: npx skills add https://github.com/ovachiever/droid-tings --skill gptq Nach der Installation wird der Skill automatisch in Ihrer KI-Programmierumgebung konfiguriert und ist bereit zur Verwendung in Claude Code oder Cursor
Wo ist das Quell-Repository?
https://github.com/ovachiever/droid-tings
Details
- Kategorie
- </>Entwicklung
- Quelle
- user
- Erstes Auftreten
- 2026-02-01