Che cos'è vllm-deployment?
Distribuisci vLLM per l'inferenza LLM ad alte prestazioni. Copre le distribuzioni di CPU/GPU Docker e il provisioning di VM cloud con endpoint API compatibili con OpenAI. Fonte: stakpak/community-paks.
Distribuisci vLLM per l'inferenza LLM ad alte prestazioni. Copre le distribuzioni di CPU/GPU Docker e il provisioning di VM cloud con endpoint API compatibili con OpenAI.
Installa rapidamente la skill AI vllm-deployment nel tuo ambiente di sviluppo tramite riga di comando
Fonte: stakpak/community-paks.
| CPU | 2x model size | 4x model size | | GPU | Model size + 2GB | Model size + 4GB VRAM |
| VLLMCPUKVCACHESPACE | KV cache size in GB (CPU) | 4 | | VLLMCPUOMPTHREADSBIND | CPU core binding (CPU) | 0-7 | | CUDAVISIBLEDEVICES | GPU device selection | 0,1 | | HFTOKEN | HuggingFace authentication | hfxxx |
| --shm-size=4g | Shared memory for IPC | | --cap-add SYSNICE | NUMA optimization (CPU) | | --security-opt seccomp=unconfined | Memory policy syscalls (CPU) | | --gpus all | GPU access | | -p 8000:8000 | Port mapping |
Distribuisci vLLM per l'inferenza LLM ad alte prestazioni. Copre le distribuzioni di CPU/GPU Docker e il provisioning di VM cloud con endpoint API compatibili con OpenAI. Fonte: stakpak/community-paks.
Campi e comandi stabili per citazioni AI/ricerca.
npx skills add https://github.com/stakpak/community-paks --skill vllm-deploymentDistribuisci vLLM per l'inferenza LLM ad alte prestazioni. Copre le distribuzioni di CPU/GPU Docker e il provisioning di VM cloud con endpoint API compatibili con OpenAI. Fonte: stakpak/community-paks.
Apri il tuo terminale o strumento da riga di comando (Terminal, iTerm, Windows Terminal, ecc.) Copia ed esegui questo comando: npx skills add https://github.com/stakpak/community-paks --skill vllm-deployment Dopo l'installazione, la skill verrà configurata automaticamente nel tuo ambiente AI di coding e sarà pronta all'uso in Claude Code, Cursor o OpenClaw
https://github.com/stakpak/community-paks