serving-llms-vllm

Name: serving-llms-vllm
Author: orchestra-research

✓

Brinda servicios a LLM con alto rendimiento utilizando PagedAttention de vLLM y procesamiento por lotes continuo. Úselo al implementar API LLM de producción, optimizar la latencia/rendimiento de inferencia o servir modelos con memoria de GPU limitada. Admite puntos finales compatibles con OpenAI, cuantificación (GPTQ/AWQ/FP8) y paralelismo tensorial.

orchestra-research·serving·llms·vllm

17Instalaciones·0Tendencia·@orchestra-research