ما هي serving-llms-vllm؟
يقدم LLMs بإنتاجية عالية باستخدام PagedAttention الخاص بـ vLLM والدفع المستمر. يُستخدم عند نشر واجهات برمجة تطبيقات LLM للإنتاج، أو تحسين زمن الوصول/الإنتاجية للاستدلال، أو تقديم نماذج ذات ذاكرة GPU محدودة. يدعم نقاط النهاية المتوافقة مع OpenAI، والتكميم (GPTQ/AWQ/FP8)، والتوازي الموتر. المصدر: ovachiever/droid-tings.