high-performance-inference
Hochleistungs-LLM-Inferenz mit vLLM, Quantisierung (AWQ, GPTQ, FP8), spekulativer Dekodierung und Edge-Bereitstellung. Zur Optimierung der Inferenzlatenz, des Durchsatzes oder des Speichers.
Installation
SKILL.md
Optimize LLM inference for production with vLLM 0.14.x, quantization, and speculative decoding.
vLLM 0.14.0 (Jan 2026): PyTorch 2.9.0, CUDA 12.9, AttentionConfig API, Python 3.12+ recommended.
| PagedAttention | Up to 24x throughput via efficient KV cache | | Continuous Batching | Dynamic request batching for max utilization | | CUDA Graphs | Fast model execution with graph capture | | Tensor Parallelism | Scale across multiple GPUs | | Prefix Caching | Reuse KV cache for shared prefixes |
Hochleistungs-LLM-Inferenz mit vLLM, Quantisierung (AWQ, GPTQ, FP8), spekulativer Dekodierung und Edge-Bereitstellung. Zur Optimierung der Inferenzlatenz, des Durchsatzes oder des Speichers. Quelle: yonatangross/skillforge-claude-plugin.
Fakten (zitierbereit)
Stabile Felder und Befehle für KI/Such-Zitate.
- Installationsbefehl
npx skills add https://github.com/yonatangross/skillforge-claude-plugin --skill high-performance-inference- Kategorie
- </>Entwicklung
- Verifiziert
- —
- Erstes Auftreten
- 2026-02-01
- Aktualisiert
- 2026-02-18
Schnelle Antworten
Was ist high-performance-inference?
Hochleistungs-LLM-Inferenz mit vLLM, Quantisierung (AWQ, GPTQ, FP8), spekulativer Dekodierung und Edge-Bereitstellung. Zur Optimierung der Inferenzlatenz, des Durchsatzes oder des Speichers. Quelle: yonatangross/skillforge-claude-plugin.
Wie installiere ich high-performance-inference?
Öffnen Sie Ihr Terminal oder Kommandozeilen-Tool (Terminal, iTerm, Windows Terminal, etc.) Kopieren Sie diesen Befehl und führen Sie ihn aus: npx skills add https://github.com/yonatangross/skillforge-claude-plugin --skill high-performance-inference Nach der Installation wird der Skill automatisch in Ihrer KI-Programmierumgebung konfiguriert und ist bereit zur Verwendung in Claude Code oder Cursor
Wo ist das Quell-Repository?
https://github.com/yonatangross/skillforge-claude-plugin
Details
- Kategorie
- </>Entwicklung
- Quelle
- user
- Erstes Auftreten
- 2026-02-01