serving-llms-vllm

Name: serving-llms-vllm
Author: orchestra-research

✓

orchestra-research/ai-research-skills

يقدم LLMs بإنتاجية عالية باستخدام PagedAttention الخاص بـ vLLM والدفع المستمر. يُستخدم عند نشر واجهات برمجة تطبيقات LLM للإنتاج، أو تحسين زمن الوصول/الإنتاجية للاستدلال، أو تقديم نماذج ذات ذاكرة GPU محدودة. يدعم نقاط النهاية المتوافقة مع OpenAI، والتكميم (GPTQ/AWQ/FP8)، والتوازي الموتر.

orchestra-research·serving·llms·vllm

49التثبيتات·2الرائج·@orchestra-research