¿Qué es vllm-ascend?
Complemento vLLM Ascend para servicio de inferencia LLM en Huawei Ascend NPU. Úselo para inferencia por lotes fuera de línea, implementación de servidor API, inferencia de cuantificación (con modelos cuantificados msmodelslim), paralelismo de tensor/canalización para servicio distribuido y puntos finales de API compatibles con OpenAI. Admite modelos Qwen, DeepSeek, GLM, LLaMA con kernels optimizados para Ascend. Fuente: ascend-ai-coding/awesome-ascend-skills.