Qu'est-ce que vllm-ascend ?
Plugin vLLM Ascend pour l'inférence LLM servie sur Huawei Ascend NPU. À utiliser pour l'inférence par lots hors ligne, le déploiement de serveur API, l'inférence de quantification (avec les modèles quantifiés msmodelslim), le parallélisme tenseur/pipeline pour le service distribué et les points de terminaison d'API compatibles OpenAI. Prend en charge les modèles Qwen, DeepSeek, GLM, LLaMA avec des noyaux optimisés pour Ascend. Source : ascend-ai-coding/awesome-ascend-skills.