serving-llms-vllm

Name: serving-llms-vllm
Author: orchestra-research

✓

orchestra-research/ai-research-skills

Serve LLM con un throughput elevato utilizzando PagedAttention di vLLM e il batch continuo. Da utilizzare quando si distribuiscono API LLM di produzione, si ottimizza la latenza/velocità effettiva di inferenza o si servono modelli con memoria GPU limitata. Supporta endpoint compatibili con OpenAI, quantizzazione (GPTQ/AWQ/FP8) e parallelismo tensore.

orchestra-research·serving·llms·vllm

49Installazioni·2Tendenza·@orchestra-research