·gptq
</>

gptq

ovachiever/droid-tings

Quantification 4 bits post-formation pour les LLM avec une perte de précision minimale. À utiliser pour déployer de grands modèles (70B, 405B) sur des GPU grand public, lorsque vous avez besoin d'une réduction de mémoire 4× avec une dégradation de perplexité <2 %, ou pour une inférence plus rapide (accélération 3-4×) par rapport au FP16. S'intègre aux transformateurs et au PEFT pour un réglage précis de QLoRA.

22Installations·0Tendance·@ovachiever

Installation

$npx skills add https://github.com/ovachiever/droid-tings --skill gptq

SKILL.md

Post-training quantization method that compresses LLMs to 4-bit with minimal accuracy loss using group-wise quantization.

| Group Size | Model Size | Accuracy | Speed | Recommendation |

| -1 (per-column) | Smallest | Best | Slowest | Research only | | 32 | Smaller | Better | Slower | High accuracy needed | | 128 | Medium | Good | Fast | Recommended default | | 256 | Larger | Lower | Faster | Speed critical | | 1024 | Largest | Lowest | Fastest | Not recommended |

Quantification 4 bits post-formation pour les LLM avec une perte de précision minimale. À utiliser pour déployer de grands modèles (70B, 405B) sur des GPU grand public, lorsque vous avez besoin d'une réduction de mémoire 4× avec une dégradation de perplexité <2 %, ou pour une inférence plus rapide (accélération 3-4×) par rapport au FP16. S'intègre aux transformateurs et au PEFT pour un réglage précis de QLoRA. Source : ovachiever/droid-tings.

Voir l'original

Faits (prêts à citer)

Champs et commandes stables pour les citations IA/recherche.

Commande d'installation
npx skills add https://github.com/ovachiever/droid-tings --skill gptq
Catégorie
</>Développement
Vérifié
Première apparition
2026-02-01
Mis à jour
2026-02-18

Réponses rapides

Qu'est-ce que gptq ?

Quantification 4 bits post-formation pour les LLM avec une perte de précision minimale. À utiliser pour déployer de grands modèles (70B, 405B) sur des GPU grand public, lorsque vous avez besoin d'une réduction de mémoire 4× avec une dégradation de perplexité <2 %, ou pour une inférence plus rapide (accélération 3-4×) par rapport au FP16. S'intègre aux transformateurs et au PEFT pour un réglage précis de QLoRA. Source : ovachiever/droid-tings.

Comment installer gptq ?

Ouvrez votre terminal ou outil de ligne de commande (Terminal, iTerm, Windows Terminal, etc.) Copiez et exécutez cette commande : npx skills add https://github.com/ovachiever/droid-tings --skill gptq Une fois installé, le skill sera automatiquement configuré dans votre environnement de programmation IA et prêt à être utilisé dans Claude Code ou Cursor

Où se trouve le dépôt source ?

https://github.com/ovachiever/droid-tings