·serving-llms-vllm
</>

serving-llms-vllm

Serve LLM con un throughput elevato utilizzando PagedAttention di vLLM e il batch continuo. Da utilizzare quando si distribuiscono API LLM di produzione, si ottimizza la latenza/velocità effettiva di inferenza o si servono modelli con memoria GPU limitata. Supporta endpoint compatibili con OpenAI, quantizzazione (GPTQ/AWQ/FP8) e parallelismo tensore.

49Installazioni·2Tendenza·@orchestra-research

Installazione

$npx skills add https://github.com/orchestra-research/ai-research-skills --skill serving-llms-vllm

Come installare serving-llms-vllm

Installa rapidamente la skill AI serving-llms-vllm nel tuo ambiente di sviluppo tramite riga di comando

  1. Apri il terminale: Apri il tuo terminale o strumento da riga di comando (Terminal, iTerm, Windows Terminal, ecc.)
  2. Esegui il comando di installazione: Copia ed esegui questo comando: npx skills add https://github.com/orchestra-research/ai-research-skills --skill serving-llms-vllm
  3. Verifica l'installazione: Dopo l'installazione, la skill verrà configurata automaticamente nel tuo ambiente AI di coding e sarà pronta all'uso in Claude Code, Cursor o OpenClaw

Fonte: orchestra-research/ai-research-skills.

vLLM achieves 24x higher throughput than standard transformers through PagedAttention (block-based KV cache) and continuous batching (mixing prefill/decode requests).

Server deployment patterns: See references/server-deployment.md for Docker, Kubernetes, and load balancing configurations.

Performance optimization: See references/optimization.md for PagedAttention tuning, continuous batching details, and benchmark results.

Serve LLM con un throughput elevato utilizzando PagedAttention di vLLM e il batch continuo. Da utilizzare quando si distribuiscono API LLM di produzione, si ottimizza la latenza/velocità effettiva di inferenza o si servono modelli con memoria GPU limitata. Supporta endpoint compatibili con OpenAI, quantizzazione (GPTQ/AWQ/FP8) e parallelismo tensore. Fonte: orchestra-research/ai-research-skills.

Fatti (pronti per citazione)

Campi e comandi stabili per citazioni AI/ricerca.

Comando di installazione
npx skills add https://github.com/orchestra-research/ai-research-skills --skill serving-llms-vllm
Categoria
</>Sviluppo
Verificato
Prima apparizione
2026-02-11
Aggiornato
2026-03-10

Browse more skills from orchestra-research/ai-research-skills

Risposte rapide

Che cos'è serving-llms-vllm?

Serve LLM con un throughput elevato utilizzando PagedAttention di vLLM e il batch continuo. Da utilizzare quando si distribuiscono API LLM di produzione, si ottimizza la latenza/velocità effettiva di inferenza o si servono modelli con memoria GPU limitata. Supporta endpoint compatibili con OpenAI, quantizzazione (GPTQ/AWQ/FP8) e parallelismo tensore. Fonte: orchestra-research/ai-research-skills.

Come installo serving-llms-vllm?

Apri il tuo terminale o strumento da riga di comando (Terminal, iTerm, Windows Terminal, ecc.) Copia ed esegui questo comando: npx skills add https://github.com/orchestra-research/ai-research-skills --skill serving-llms-vllm Dopo l'installazione, la skill verrà configurata automaticamente nel tuo ambiente AI di coding e sarà pronta all'uso in Claude Code, Cursor o OpenClaw

Dov'è il repository sorgente?

https://github.com/orchestra-research/ai-research-skills