·high-performance-inference
</>

high-performance-inference

yonatangross/skillforge-claude-plugin

vLLM, 양자화(AWQ, GPTQ, FP8), 추측 디코딩 및 에지 배포를 통한 고성능 LLM 추론. 추론 대기 시간, 처리량 또는 메모리를 최적화할 때 사용합니다.

4설치·0트렌드·@yonatangross

설치

$npx skills add https://github.com/yonatangross/skillforge-claude-plugin --skill high-performance-inference

SKILL.md

Optimize LLM inference for production with vLLM 0.14.x, quantization, and speculative decoding.

vLLM 0.14.0 (Jan 2026): PyTorch 2.9.0, CUDA 12.9, AttentionConfig API, Python 3.12+ recommended.

| PagedAttention | Up to 24x throughput via efficient KV cache | | Continuous Batching | Dynamic request batching for max utilization | | CUDA Graphs | Fast model execution with graph capture | | Tensor Parallelism | Scale across multiple GPUs | | Prefix Caching | Reuse KV cache for shared prefixes |

vLLM, 양자화(AWQ, GPTQ, FP8), 추측 디코딩 및 에지 배포를 통한 고성능 LLM 추론. 추론 대기 시간, 처리량 또는 메모리를 최적화할 때 사용합니다. 출처: yonatangross/skillforge-claude-plugin.

원본 보기

인용 가능한 정보

AI/검색 인용용 안정적인 필드와 명령어.

설치 명령어
npx skills add https://github.com/yonatangross/skillforge-claude-plugin --skill high-performance-inference
카테고리
</>개발 도구
인증됨
최초 등록
2026-02-01
업데이트
2026-02-18

빠른 답변

high-performance-inference이란?

vLLM, 양자화(AWQ, GPTQ, FP8), 추측 디코딩 및 에지 배포를 통한 고성능 LLM 추론. 추론 대기 시간, 처리량 또는 메모리를 최적화할 때 사용합니다. 출처: yonatangross/skillforge-claude-plugin.

high-performance-inference 설치 방법은?

터미널 또는 명령줄 도구(Terminal, iTerm, Windows Terminal 등)를 엽니다 이 명령어를 복사하여 실행합니다: npx skills add https://github.com/yonatangross/skillforge-claude-plugin --skill high-performance-inference 설치 후 스킬은 자동으로 AI 코딩 환경에 설정되어 Claude Code나 Cursor에서 사용할 수 있습니다

소스 저장소는 어디인가요?

https://github.com/yonatangross/skillforge-claude-plugin