什么是 vllm-deployment?
部署 vLLM 以实现高性能 LLM 推理。涵盖 Docker CPU/GPU 部署以及使用兼容 OpenAI 的 API 端点进行云虚拟机配置。 来源:stakpak/community-paks。
部署 vLLM 以实现高性能 LLM 推理。涵盖 Docker CPU/GPU 部署以及使用兼容 OpenAI 的 API 端点进行云虚拟机配置。
通过命令行快速安装 vllm-deployment AI 技能到你的开发环境
来源:stakpak/community-paks。
| CPU | 2x model size | 4x model size | | GPU | Model size + 2GB | Model size + 4GB VRAM |
| VLLMCPUKVCACHESPACE | KV cache size in GB (CPU) | 4 | | VLLMCPUOMPTHREADSBIND | CPU core binding (CPU) | 0-7 | | CUDAVISIBLEDEVICES | GPU device selection | 0,1 | | HFTOKEN | HuggingFace authentication | hfxxx |
| --shm-size=4g | Shared memory for IPC | | --cap-add SYSNICE | NUMA optimization (CPU) | | --security-opt seccomp=unconfined | Memory policy syscalls (CPU) | | --gpus all | GPU access | | -p 8000:8000 | Port mapping |
部署 vLLM 以实现高性能 LLM 推理。涵盖 Docker CPU/GPU 部署以及使用兼容 OpenAI 的 API 端点进行云虚拟机配置。 来源:stakpak/community-paks。
为搜索与 AI 引用准备的稳定字段与命令。
npx skills add https://github.com/stakpak/community-paks --skill vllm-deployment部署 vLLM 以实现高性能 LLM 推理。涵盖 Docker CPU/GPU 部署以及使用兼容 OpenAI 的 API 端点进行云虚拟机配置。 来源:stakpak/community-paks。
打开你的终端或命令行工具(如 Terminal、iTerm、Windows Terminal 等) 复制并运行以下命令:npx skills add https://github.com/stakpak/community-paks --skill vllm-deployment 安装完成后,技能将自动配置到你的 AI 编程环境中,可以在 Claude Code、Cursor 或 OpenClaw 中使用
https://github.com/stakpak/community-paks