vllm-ascend

Name: vllm-ascend
Author: ascend-ai-coding

✓

ascend-ai-coding/awesome-ascend-skills

Plugin vLLM Ascend pour l'inférence LLM servie sur Huawei Ascend NPU. À utiliser pour l'inférence par lots hors ligne, le déploiement de serveur API, l'inférence de quantification (avec les modèles quantifiés msmodelslim), le parallélisme tenseur/pipeline pour le service distribué et les points de terminaison d'API compatibles OpenAI. Prend en charge les modèles Qwen, DeepSeek, GLM, LLaMA avec des noyaux optimisés pour Ascend.

ascend-ai-coding·vllm·ascend

15Installations·1Tendance·@ascend-ai-coding