vllm-ascend

Name: vllm-ascend
Author: ascend-ai-coding

✓

ascend-ai-coding/awesome-ascend-skills

Plug-in vLLM Ascend per l'inferenza LLM su Huawei Ascend NPU. Utilizzare per inferenza batch offline, distribuzione di server API, inferenza di quantizzazione (con modelli quantizzati msmodelslim), parallelismo tensore/pipeline per la distribuzione distribuita ed endpoint API compatibili con OpenAI. Supporta i modelli Qwen, DeepSeek, GLM, LLaMA con kernel ottimizzati per Ascend.

ascend-ai-coding·vllm·ascend

15Installazioni·1Tendenza·@ascend-ai-coding