·serving-llms-vllm
</>

serving-llms-vllm

يقدم LLMs بإنتاجية عالية باستخدام PagedAttention الخاص بـ vLLM والدفع المستمر. يُستخدم عند نشر واجهات برمجة تطبيقات LLM للإنتاج، أو تحسين زمن الوصول/الإنتاجية للاستدلال، أو تقديم نماذج ذات ذاكرة GPU محدودة. يدعم نقاط النهاية المتوافقة مع OpenAI، والتكميم (GPTQ/AWQ/FP8)، والتوازي الموتر.

49التثبيتات·2الرائج·@orchestra-research

التثبيت

$npx skills add https://github.com/orchestra-research/ai-research-skills --skill serving-llms-vllm

كيفية تثبيت serving-llms-vllm

ثبّت مهارة الذكاء الاصطناعي serving-llms-vllm بسرعة في بيئة التطوير لديك عبر سطر الأوامر

  1. افتح الطرفية: افتح الطرفية أو أداة سطر الأوامر لديك مثل Terminal أو iTerm أو Windows Terminal
  2. نفّذ أمر التثبيت: انسخ ونفّذ هذا الأمر: npx skills add https://github.com/orchestra-research/ai-research-skills --skill serving-llms-vllm
  3. تحقق من التثبيت: بعد التثبيت، سيتم إعداد المهارة تلقائيا في بيئة البرمجة بالذكاء الاصطناعي لديك وتصبح جاهزة للاستخدام في Claude Code أو Cursor أو OpenClaw

المصدر: orchestra-research/ai-research-skills.

vLLM achieves 24x higher throughput than standard transformers through PagedAttention (block-based KV cache) and continuous batching (mixing prefill/decode requests).

Server deployment patterns: See references/server-deployment.md for Docker, Kubernetes, and load balancing configurations.

Performance optimization: See references/optimization.md for PagedAttention tuning, continuous batching details, and benchmark results.

يقدم LLMs بإنتاجية عالية باستخدام PagedAttention الخاص بـ vLLM والدفع المستمر. يُستخدم عند نشر واجهات برمجة تطبيقات LLM للإنتاج، أو تحسين زمن الوصول/الإنتاجية للاستدلال، أو تقديم نماذج ذات ذاكرة GPU محدودة. يدعم نقاط النهاية المتوافقة مع OpenAI، والتكميم (GPTQ/AWQ/FP8)، والتوازي الموتر. المصدر: orchestra-research/ai-research-skills.

حقائق جاهزة للاقتباس

حقول وأوامر مستقرة للاقتباس في أنظمة الذكاء الاصطناعي والبحث.

أمر التثبيت
npx skills add https://github.com/orchestra-research/ai-research-skills --skill serving-llms-vllm
الفئة
</>أدوات التطوير
موثق
أول ظهور
2026-02-11
آخر تحديث
2026-03-10

Browse more skills from orchestra-research/ai-research-skills

إجابات سريعة

ما هي serving-llms-vllm؟

يقدم LLMs بإنتاجية عالية باستخدام PagedAttention الخاص بـ vLLM والدفع المستمر. يُستخدم عند نشر واجهات برمجة تطبيقات LLM للإنتاج، أو تحسين زمن الوصول/الإنتاجية للاستدلال، أو تقديم نماذج ذات ذاكرة GPU محدودة. يدعم نقاط النهاية المتوافقة مع OpenAI، والتكميم (GPTQ/AWQ/FP8)، والتوازي الموتر. المصدر: orchestra-research/ai-research-skills.

كيف أثبّت serving-llms-vllm؟

افتح الطرفية أو أداة سطر الأوامر لديك مثل Terminal أو iTerm أو Windows Terminal انسخ ونفّذ هذا الأمر: npx skills add https://github.com/orchestra-research/ai-research-skills --skill serving-llms-vllm بعد التثبيت، سيتم إعداد المهارة تلقائيا في بيئة البرمجة بالذكاء الاصطناعي لديك وتصبح جاهزة للاستخدام في Claude Code أو Cursor أو OpenClaw

أين مستودع المصدر؟

https://github.com/orchestra-research/ai-research-skills

التفاصيل

الفئة
</>أدوات التطوير
المصدر
skills.sh
أول ظهور
2026-02-11