Che cos'è vllm-ascend?
Plug-in vLLM Ascend per l'inferenza LLM su Huawei Ascend NPU. Utilizzare per inferenza batch offline, distribuzione di server API, inferenza di quantizzazione (con modelli quantizzati msmodelslim), parallelismo tensore/pipeline per la distribuzione distribuita ed endpoint API compatibili con OpenAI. Supporta i modelli Qwen, DeepSeek, GLM, LLaMA con kernel ottimizzati per Ascend. Fonte: ascend-ai-coding/awesome-ascend-skills.