·high-performance-inference
</>

high-performance-inference

Inferenza LLM ad alte prestazioni con vLLM, quantizzazione (AWQ, GPTQ, FP8), decodifica speculativa e distribuzione edge. Da utilizzare per ottimizzare la latenza di inferenza, la velocità effettiva o la memoria.

4Installazioni·0Tendenza·@yonatangross

Installazione

$npx skills add https://github.com/yonatangross/skillforge-claude-plugin --skill high-performance-inference

Come installare high-performance-inference

Installa rapidamente la skill AI high-performance-inference nel tuo ambiente di sviluppo tramite riga di comando

  1. Apri il terminale: Apri il tuo terminale o strumento da riga di comando (Terminal, iTerm, Windows Terminal, ecc.)
  2. Esegui il comando di installazione: Copia ed esegui questo comando: npx skills add https://github.com/yonatangross/skillforge-claude-plugin --skill high-performance-inference
  3. Verifica l'installazione: Dopo l'installazione, la skill verrà configurata automaticamente nel tuo ambiente AI di coding e sarà pronta all'uso in Claude Code, Cursor o OpenClaw

Fonte: yonatangross/skillforge-claude-plugin.

Optimize LLM inference for production with vLLM 0.14.x, quantization, and speculative decoding.

vLLM 0.14.0 (Jan 2026): PyTorch 2.9.0, CUDA 12.9, AttentionConfig API, Python 3.12+ recommended.

| PagedAttention | Up to 24x throughput via efficient KV cache | | Continuous Batching | Dynamic request batching for max utilization | | CUDA Graphs | Fast model execution with graph capture | | Tensor Parallelism | Scale across multiple GPUs | | Prefix Caching | Reuse KV cache for shared prefixes |

Inferenza LLM ad alte prestazioni con vLLM, quantizzazione (AWQ, GPTQ, FP8), decodifica speculativa e distribuzione edge. Da utilizzare per ottimizzare la latenza di inferenza, la velocità effettiva o la memoria. Fonte: yonatangross/skillforge-claude-plugin.

Fatti (pronti per citazione)

Campi e comandi stabili per citazioni AI/ricerca.

Comando di installazione
npx skills add https://github.com/yonatangross/skillforge-claude-plugin --skill high-performance-inference
Categoria
</>Sviluppo
Verificato
Prima apparizione
2026-02-01
Aggiornato
2026-03-10

Browse more skills from yonatangross/skillforge-claude-plugin

Risposte rapide

Che cos'è high-performance-inference?

Inferenza LLM ad alte prestazioni con vLLM, quantizzazione (AWQ, GPTQ, FP8), decodifica speculativa e distribuzione edge. Da utilizzare per ottimizzare la latenza di inferenza, la velocità effettiva o la memoria. Fonte: yonatangross/skillforge-claude-plugin.

Come installo high-performance-inference?

Apri il tuo terminale o strumento da riga di comando (Terminal, iTerm, Windows Terminal, ecc.) Copia ed esegui questo comando: npx skills add https://github.com/yonatangross/skillforge-claude-plugin --skill high-performance-inference Dopo l'installazione, la skill verrà configurata automaticamente nel tuo ambiente AI di coding e sarà pronta all'uso in Claude Code, Cursor o OpenClaw

Dov'è il repository sorgente?

https://github.com/yonatangross/skillforge-claude-plugin