vllm-ascend이란?
Huawei Ascend NPU에서 제공되는 LLM 추론을 위한 vLLM Ascend 플러그인입니다. 오프라인 일괄 추론, API 서버 배포, 양자화 추론(msmodelslim 양자화 모델 사용), 분산 제공을 위한 텐서/파이프라인 병렬 처리 및 OpenAI 호환 API 엔드포인트에 사용됩니다. Ascend에 최적화된 커널로 Qwen, DeepSeek, GLM, LLaMA 모델을 지원합니다. 출처: ascend-ai-coding/awesome-ascend-skills.