Was ist vllm-ascend?
vLLM Ascend-Plugin für die Bereitstellung von LLM-Inferenzen auf der Huawei Ascend NPU. Verwendung für Offline-Batch-Inferenz, API-Serverbereitstellung, Quantisierungsinferenz (mit quantisierten msmodelslim-Modellen), Tensor-/Pipeline-Parallelität für verteilte Bereitstellung und OpenAI-kompatible API-Endpunkte. Unterstützt Qwen-, DeepSeek-, GLM- und LLaMA-Modelle mit Ascend-optimierten Kerneln. Quelle: ascend-ai-coding/awesome-ascend-skills.