vllm-ascend とは?
Huawei Ascend NPU で機能する LLM 推論用の vLLM Ascend プラグイン。オフライン バッチ推論、API サーバー デプロイメント、量子化推論 (msmodelslim 量子化モデルを使用)、分散サービスのためのテンソル/パイプライン並列処理、および OpenAI 互換 API エンドポイントに使用します。 Ascend に最適化されたカーネルで Qwen、DeepSeek、GLM、LLaMA モデルをサポートします。 ソース: ascend-ai-coding/awesome-ascend-skills。