Was ist serving-llms-vllm?
Bedient LLMs mit hohem Durchsatz mithilfe von vLLMs PagedAttention und kontinuierlicher Stapelverarbeitung. Verwenden Sie diese Option, wenn Sie Produktions-LLM-APIs bereitstellen, die Inferenzlatenz/den Durchsatz optimieren oder Modelle mit begrenztem GPU-Speicher bereitstellen. Unterstützt OpenAI-kompatible Endpunkte, Quantisierung (GPTQ/AWQ/FP8) und Tensorparallelität. Quelle: ovachiever/droid-tings.