¿Qué es serving-llms-vllm?
Brinda servicios a LLM con alto rendimiento utilizando PagedAttention de vLLM y procesamiento por lotes continuo. Úselo al implementar API LLM de producción, optimizar la latencia/rendimiento de inferencia o servir modelos con memoria de GPU limitada. Admite puntos finales compatibles con OpenAI, cuantificación (GPTQ/AWQ/FP8) y paralelismo tensorial. Fuente: ovachiever/droid-tings.