·high-performance-inference
</>

high-performance-inference

yonatangross/orchestkit

Inférence LLM hautes performances avec vLLM, quantification (AWQ, GPTQ, FP8), décodage spéculatif et déploiement périphérique. À utiliser pour optimiser la latence, le débit ou la mémoire d’inférence.

12Installations·0Tendance·@yonatangross

Installation

$npx skills add https://github.com/yonatangross/orchestkit --skill high-performance-inference

SKILL.md

Optimize LLM inference for production with vLLM 0.14.x, quantization, and speculative decoding.

vLLM 0.14.0 (Jan 2026): PyTorch 2.9.0, CUDA 12.9, AttentionConfig API, Python 3.12+ recommended.

| PagedAttention | Up to 24x throughput via efficient KV cache | | Continuous Batching | Dynamic request batching for max utilization | | CUDA Graphs | Fast model execution with graph capture | | Tensor Parallelism | Scale across multiple GPUs | | Prefix Caching | Reuse KV cache for shared prefixes |

Inférence LLM hautes performances avec vLLM, quantification (AWQ, GPTQ, FP8), décodage spéculatif et déploiement périphérique. À utiliser pour optimiser la latence, le débit ou la mémoire d’inférence. Source : yonatangross/orchestkit.

Voir l'original

Faits (prêts à citer)

Champs et commandes stables pour les citations IA/recherche.

Commande d'installation
npx skills add https://github.com/yonatangross/orchestkit --skill high-performance-inference
Catégorie
</>Développement
Vérifié
Première apparition
2026-02-01
Mis à jour
2026-02-18

Réponses rapides

Qu'est-ce que high-performance-inference ?

Inférence LLM hautes performances avec vLLM, quantification (AWQ, GPTQ, FP8), décodage spéculatif et déploiement périphérique. À utiliser pour optimiser la latence, le débit ou la mémoire d’inférence. Source : yonatangross/orchestkit.

Comment installer high-performance-inference ?

Ouvrez votre terminal ou outil de ligne de commande (Terminal, iTerm, Windows Terminal, etc.) Copiez et exécutez cette commande : npx skills add https://github.com/yonatangross/orchestkit --skill high-performance-inference Une fois installé, le skill sera automatiquement configuré dans votre environnement de programmation IA et prêt à être utilisé dans Claude Code ou Cursor

Où se trouve le dépôt source ?

https://github.com/yonatangross/orchestkit