vllm-deployment이란?
고성능 LLM 추론을 위해 vLLM을 배포합니다. OpenAI 호환 API 엔드포인트를 사용한 Docker CPU/GPU 배포 및 클라우드 VM 프로비저닝을 다룹니다. 출처: stakpak/community-paks.
고성능 LLM 추론을 위해 vLLM을 배포합니다. OpenAI 호환 API 엔드포인트를 사용한 Docker CPU/GPU 배포 및 클라우드 VM 프로비저닝을 다룹니다.
명령줄에서 vllm-deployment AI 스킬을 개발 환경에 빠르게 설치
출처: stakpak/community-paks.
| CPU | 2x model size | 4x model size | | GPU | Model size + 2GB | Model size + 4GB VRAM |
| VLLMCPUKVCACHESPACE | KV cache size in GB (CPU) | 4 | | VLLMCPUOMPTHREADSBIND | CPU core binding (CPU) | 0-7 | | CUDAVISIBLEDEVICES | GPU device selection | 0,1 | | HFTOKEN | HuggingFace authentication | hfxxx |
| --shm-size=4g | Shared memory for IPC | | --cap-add SYSNICE | NUMA optimization (CPU) | | --security-opt seccomp=unconfined | Memory policy syscalls (CPU) | | --gpus all | GPU access | | -p 8000:8000 | Port mapping |
고성능 LLM 추론을 위해 vLLM을 배포합니다. OpenAI 호환 API 엔드포인트를 사용한 Docker CPU/GPU 배포 및 클라우드 VM 프로비저닝을 다룹니다. 출처: stakpak/community-paks.
AI/검색 인용용 안정적인 필드와 명령어.
npx skills add https://github.com/stakpak/community-paks --skill vllm-deployment고성능 LLM 추론을 위해 vLLM을 배포합니다. OpenAI 호환 API 엔드포인트를 사용한 Docker CPU/GPU 배포 및 클라우드 VM 프로비저닝을 다룹니다. 출처: stakpak/community-paks.
터미널 또는 명령줄 도구(Terminal, iTerm, Windows Terminal 등)를 엽니다 이 명령어를 복사하여 실행합니다: npx skills add https://github.com/stakpak/community-paks --skill vllm-deployment 설치 후 스킬은 자동으로 AI 코딩 환경에 설정되어 Claude Code, Cursor, OpenClaw에서 사용할 수 있습니다
https://github.com/stakpak/community-paks