high-performance-inference
✓vLLM, 양자화(AWQ, GPTQ, FP8), 추측 디코딩 및 에지 배포를 통한 고성능 LLM 추론. 추론 대기 시간, 처리량 또는 메모리를 최적화할 때 사용합니다.
SKILL.md
Optimize LLM inference for production with vLLM 0.14.x, quantization, and speculative decoding.
vLLM 0.14.0 (Jan 2026): PyTorch 2.9.0, CUDA 12.9, AttentionConfig API, Python 3.12+ recommended.
| PagedAttention | Up to 24x throughput via efficient KV cache | | Continuous Batching | Dynamic request batching for max utilization | | CUDA Graphs | Fast model execution with graph capture | | Tensor Parallelism | Scale across multiple GPUs | | Prefix Caching | Reuse KV cache for shared prefixes |
vLLM, 양자화(AWQ, GPTQ, FP8), 추측 디코딩 및 에지 배포를 통한 고성능 LLM 추론. 추론 대기 시간, 처리량 또는 메모리를 최적화할 때 사용합니다. 출처: yonatangross/orchestkit.
인용 가능한 정보
AI/검색 인용용 안정적인 필드와 명령어.
- 설치 명령어
npx skills add https://github.com/yonatangross/orchestkit --skill high-performance-inference- 카테고리
- </>개발 도구
- 인증됨
- ✓
- 최초 등록
- 2026-02-01
- 업데이트
- 2026-02-18
빠른 답변
high-performance-inference이란?
vLLM, 양자화(AWQ, GPTQ, FP8), 추측 디코딩 및 에지 배포를 통한 고성능 LLM 추론. 추론 대기 시간, 처리량 또는 메모리를 최적화할 때 사용합니다. 출처: yonatangross/orchestkit.
high-performance-inference 설치 방법은?
터미널 또는 명령줄 도구(Terminal, iTerm, Windows Terminal 등)를 엽니다 이 명령어를 복사하여 실행합니다: npx skills add https://github.com/yonatangross/orchestkit --skill high-performance-inference 설치 후 스킬은 자동으로 AI 코딩 환경에 설정되어 Claude Code나 Cursor에서 사용할 수 있습니다
소스 저장소는 어디인가요?
https://github.com/yonatangross/orchestkit
상세
- 카테고리
- </>개발 도구
- 출처
- skills.sh
- 최초 등록
- 2026-02-01