·vllm-ascend

Plugin vLLM Ascend pour l'inférence LLM servie sur Huawei Ascend NPU. À utiliser pour l'inférence par lots hors ligne, le déploiement de serveur API, l'inférence de quantification (avec les modèles quantifiés msmodelslim), le parallélisme tenseur/pipeline pour le service distribué et les points de terminaison d'API compatibles OpenAI. Prend en charge les modèles Qwen, DeepSeek, GLM, LLaMA avec des noyaux optimisés pour Ascend.

15Installations·1Tendance·@ascend-ai-coding

Installation

$npx skills add https://github.com/ascend-ai-coding/awesome-ascend-skills --skill vllm-ascend

Comment installer vllm-ascend

Installez rapidement le skill IA vllm-ascend dans votre environnement de développement via la ligne de commande

  1. Ouvrir le Terminal: Ouvrez votre terminal ou outil de ligne de commande (Terminal, iTerm, Windows Terminal, etc.)
  2. Exécuter la commande d'installation: Copiez et exécutez cette commande : npx skills add https://github.com/ascend-ai-coding/awesome-ascend-skills --skill vllm-ascend
  3. Vérifier l'installation: Une fois installé, le skill sera automatiquement configuré dans votre environnement de programmation IA et prêt à être utilisé dans Claude Code, Cursor ou OpenClaw

Source : ascend-ai-coding/awesome-ascend-skills.

vLLM-Ascend is a plugin for vLLM that enables efficient LLM inference on Huawei Ascend AI processors. It provides Ascend-optimized kernels, quantization support, and distributed inference capabilities.

vLLM-Ascend supports models quantized with msModelSlim. For quantization details, see msmodelslim.

| Parameter | Default | Description | Tuning Advice |

Plugin vLLM Ascend pour l'inférence LLM servie sur Huawei Ascend NPU. À utiliser pour l'inférence par lots hors ligne, le déploiement de serveur API, l'inférence de quantification (avec les modèles quantifiés msmodelslim), le parallélisme tenseur/pipeline pour le service distribué et les points de terminaison d'API compatibles OpenAI. Prend en charge les modèles Qwen, DeepSeek, GLM, LLaMA avec des noyaux optimisés pour Ascend. Source : ascend-ai-coding/awesome-ascend-skills.

Faits (prêts à citer)

Champs et commandes stables pour les citations IA/recherche.

Commande d'installation
npx skills add https://github.com/ascend-ai-coding/awesome-ascend-skills --skill vllm-ascend
Catégorie
</>Développement
Vérifié
Première apparition
2026-03-09
Mis à jour
2026-03-11

Browse more skills from ascend-ai-coding/awesome-ascend-skills

Réponses rapides

Qu'est-ce que vllm-ascend ?

Plugin vLLM Ascend pour l'inférence LLM servie sur Huawei Ascend NPU. À utiliser pour l'inférence par lots hors ligne, le déploiement de serveur API, l'inférence de quantification (avec les modèles quantifiés msmodelslim), le parallélisme tenseur/pipeline pour le service distribué et les points de terminaison d'API compatibles OpenAI. Prend en charge les modèles Qwen, DeepSeek, GLM, LLaMA avec des noyaux optimisés pour Ascend. Source : ascend-ai-coding/awesome-ascend-skills.

Comment installer vllm-ascend ?

Ouvrez votre terminal ou outil de ligne de commande (Terminal, iTerm, Windows Terminal, etc.) Copiez et exécutez cette commande : npx skills add https://github.com/ascend-ai-coding/awesome-ascend-skills --skill vllm-ascend Une fois installé, le skill sera automatiquement configuré dans votre environnement de programmation IA et prêt à être utilisé dans Claude Code, Cursor ou OpenClaw

Où se trouve le dépôt source ?

https://github.com/ascend-ai-coding/awesome-ascend-skills