·gptq
</>

gptq

ovachiever/droid-tings

4-Bit-Quantisierung nach dem Training für LLMs mit minimalem Genauigkeitsverlust. Verwenden Sie diese Option für die Bereitstellung großer Modelle (70B, 405B) auf Consumer-GPUs, wenn Sie eine 4-fache Speicherreduzierung mit einer Perplexitätsverschlechterung von <2 % benötigen, oder für eine schnellere Inferenz (3-4-fache Beschleunigung) im Vergleich zu FP16. Lässt sich mit Transformatoren und PEFT zur QLoRA-Feinabstimmung integrieren.

0Installationen·0Trend·@ovachiever

Installation

$npx skills add https://github.com/ovachiever/droid-tings --skill gptq

SKILL.md

Post-training quantization method that compresses LLMs to 4-bit with minimal accuracy loss using group-wise quantization.

| Group Size | Model Size | Accuracy | Speed | Recommendation |

| -1 (per-column) | Smallest | Best | Slowest | Research only | | 32 | Smaller | Better | Slower | High accuracy needed | | 128 | Medium | Good | Fast | Recommended default | | 256 | Larger | Lower | Faster | Speed critical | | 1024 | Largest | Lowest | Fastest | Not recommended |

4-Bit-Quantisierung nach dem Training für LLMs mit minimalem Genauigkeitsverlust. Verwenden Sie diese Option für die Bereitstellung großer Modelle (70B, 405B) auf Consumer-GPUs, wenn Sie eine 4-fache Speicherreduzierung mit einer Perplexitätsverschlechterung von <2 % benötigen, oder für eine schnellere Inferenz (3-4-fache Beschleunigung) im Vergleich zu FP16. Lässt sich mit Transformatoren und PEFT zur QLoRA-Feinabstimmung integrieren. Quelle: ovachiever/droid-tings.

Original anzeigen

Fakten (zitierbereit)

Stabile Felder und Befehle für KI/Such-Zitate.

Installationsbefehl
npx skills add https://github.com/ovachiever/droid-tings --skill gptq
Kategorie
</>Entwicklung
Verifiziert
Erstes Auftreten
2026-02-01
Aktualisiert
2026-02-18

Schnelle Antworten

Was ist gptq?

4-Bit-Quantisierung nach dem Training für LLMs mit minimalem Genauigkeitsverlust. Verwenden Sie diese Option für die Bereitstellung großer Modelle (70B, 405B) auf Consumer-GPUs, wenn Sie eine 4-fache Speicherreduzierung mit einer Perplexitätsverschlechterung von <2 % benötigen, oder für eine schnellere Inferenz (3-4-fache Beschleunigung) im Vergleich zu FP16. Lässt sich mit Transformatoren und PEFT zur QLoRA-Feinabstimmung integrieren. Quelle: ovachiever/droid-tings.

Wie installiere ich gptq?

Öffnen Sie Ihr Terminal oder Kommandozeilen-Tool (Terminal, iTerm, Windows Terminal, etc.) Kopieren Sie diesen Befehl und führen Sie ihn aus: npx skills add https://github.com/ovachiever/droid-tings --skill gptq Nach der Installation wird der Skill automatisch in Ihrer KI-Programmierumgebung konfiguriert und ist bereit zur Verwendung in Claude Code oder Cursor

Wo ist das Quell-Repository?

https://github.com/ovachiever/droid-tings