serving-llms-vllm

Name: serving-llms-vllm
Author: orchestra-research

✓

vLLM의 PagedAttention 및 연속 일괄 처리를 사용하여 높은 처리량으로 LLM을 제공합니다. 프로덕션 LLM API를 배포하거나, 추론 지연 시간/처리량을 최적화하거나, GPU 메모리가 제한된 모델을 제공할 때 사용하세요. OpenAI 호환 엔드포인트, 양자화(GPTQ/AWQ/FP8) 및 텐서 병렬 처리를 지원합니다.

orchestra-research·serving·llms·vllm

17설치·0트렌드·@orchestra-research

설치

$npx skills add https://github.com/orchestra-research/ai-research-skills --skill serving-llms-vllm

상세

카테고리: </>개발 도구
출처: skills.sh
최초 등록: 2026-02-11

serving-llms-vllm

설치

SKILL.md

인용 가능한 정보

빠른 답변

serving-llms-vllm이란?

serving-llms-vllm 설치 방법은?

소스 저장소는 어디인가요?

상세

관련 Skills