·high-performance-inference
</>

high-performance-inference

yonatangross/orchestkit

Hochleistungs-LLM-Inferenz mit vLLM, Quantisierung (AWQ, GPTQ, FP8), spekulativer Dekodierung und Edge-Bereitstellung. Zur Optimierung der Inferenzlatenz, des Durchsatzes oder des Speichers.

12Installationen·0Trend·@yonatangross

Installation

$npx skills add https://github.com/yonatangross/orchestkit --skill high-performance-inference

SKILL.md

Optimize LLM inference for production with vLLM 0.14.x, quantization, and speculative decoding.

vLLM 0.14.0 (Jan 2026): PyTorch 2.9.0, CUDA 12.9, AttentionConfig API, Python 3.12+ recommended.

| PagedAttention | Up to 24x throughput via efficient KV cache | | Continuous Batching | Dynamic request batching for max utilization | | CUDA Graphs | Fast model execution with graph capture | | Tensor Parallelism | Scale across multiple GPUs | | Prefix Caching | Reuse KV cache for shared prefixes |

Hochleistungs-LLM-Inferenz mit vLLM, Quantisierung (AWQ, GPTQ, FP8), spekulativer Dekodierung und Edge-Bereitstellung. Zur Optimierung der Inferenzlatenz, des Durchsatzes oder des Speichers. Quelle: yonatangross/orchestkit.

Original anzeigen

Fakten (zitierbereit)

Stabile Felder und Befehle für KI/Such-Zitate.

Installationsbefehl
npx skills add https://github.com/yonatangross/orchestkit --skill high-performance-inference
Kategorie
</>Entwicklung
Verifiziert
Erstes Auftreten
2026-02-01
Aktualisiert
2026-02-18

Schnelle Antworten

Was ist high-performance-inference?

Hochleistungs-LLM-Inferenz mit vLLM, Quantisierung (AWQ, GPTQ, FP8), spekulativer Dekodierung und Edge-Bereitstellung. Zur Optimierung der Inferenzlatenz, des Durchsatzes oder des Speichers. Quelle: yonatangross/orchestkit.

Wie installiere ich high-performance-inference?

Öffnen Sie Ihr Terminal oder Kommandozeilen-Tool (Terminal, iTerm, Windows Terminal, etc.) Kopieren Sie diesen Befehl und führen Sie ihn aus: npx skills add https://github.com/yonatangross/orchestkit --skill high-performance-inference Nach der Installation wird der Skill automatisch in Ihrer KI-Programmierumgebung konfiguriert und ist bereit zur Verwendung in Claude Code oder Cursor

Wo ist das Quell-Repository?

https://github.com/yonatangross/orchestkit