Что такое vllm-ascend?
Плагин vLLM Ascend для обработки выводов LLM на процессоре Huawei Ascend NPU. Используйте для автономного пакетного вывода, развертывания сервера API, вывода квантования (с квантованными моделями msmodelslim), тензорного/конвейерного параллелизма для распределенного обслуживания и конечных точек API, совместимых с OpenAI. Поддерживает модели Qwen, DeepSeek, GLM, LLaMA с ядрами, оптимизированными для Ascend. Источник: ascend-ai-coding/awesome-ascend-skills.