·high-performance-inference
</>

high-performance-inference

استدلال LLM عالي الأداء باستخدام vLLM، والتكميم (AWQ، وGPTQ، وFP8)، وفك تشفير المضاربة، ونشر الحافة. يُستخدم عند تحسين زمن وصول الاستدلال أو الإنتاجية أو الذاكرة.

4التثبيتات·0الرائج·@yonatangross

التثبيت

$npx skills add https://github.com/yonatangross/skillforge-claude-plugin --skill high-performance-inference

كيفية تثبيت high-performance-inference

ثبّت مهارة الذكاء الاصطناعي high-performance-inference بسرعة في بيئة التطوير لديك عبر سطر الأوامر

  1. افتح الطرفية: افتح الطرفية أو أداة سطر الأوامر لديك مثل Terminal أو iTerm أو Windows Terminal
  2. نفّذ أمر التثبيت: انسخ ونفّذ هذا الأمر: npx skills add https://github.com/yonatangross/skillforge-claude-plugin --skill high-performance-inference
  3. تحقق من التثبيت: بعد التثبيت، سيتم إعداد المهارة تلقائيا في بيئة البرمجة بالذكاء الاصطناعي لديك وتصبح جاهزة للاستخدام في Claude Code أو Cursor أو OpenClaw

المصدر: yonatangross/skillforge-claude-plugin.

Optimize LLM inference for production with vLLM 0.14.x, quantization, and speculative decoding.

vLLM 0.14.0 (Jan 2026): PyTorch 2.9.0, CUDA 12.9, AttentionConfig API, Python 3.12+ recommended.

| PagedAttention | Up to 24x throughput via efficient KV cache | | Continuous Batching | Dynamic request batching for max utilization | | CUDA Graphs | Fast model execution with graph capture | | Tensor Parallelism | Scale across multiple GPUs | | Prefix Caching | Reuse KV cache for shared prefixes |

استدلال LLM عالي الأداء باستخدام vLLM، والتكميم (AWQ، وGPTQ، وFP8)، وفك تشفير المضاربة، ونشر الحافة. يُستخدم عند تحسين زمن وصول الاستدلال أو الإنتاجية أو الذاكرة. المصدر: yonatangross/skillforge-claude-plugin.

حقائق جاهزة للاقتباس

حقول وأوامر مستقرة للاقتباس في أنظمة الذكاء الاصطناعي والبحث.

أمر التثبيت
npx skills add https://github.com/yonatangross/skillforge-claude-plugin --skill high-performance-inference
الفئة
</>أدوات التطوير
موثق
أول ظهور
2026-02-01
آخر تحديث
2026-03-10

Browse more skills from yonatangross/skillforge-claude-plugin

إجابات سريعة

ما هي high-performance-inference؟

استدلال LLM عالي الأداء باستخدام vLLM، والتكميم (AWQ، وGPTQ، وFP8)، وفك تشفير المضاربة، ونشر الحافة. يُستخدم عند تحسين زمن وصول الاستدلال أو الإنتاجية أو الذاكرة. المصدر: yonatangross/skillforge-claude-plugin.

كيف أثبّت high-performance-inference؟

افتح الطرفية أو أداة سطر الأوامر لديك مثل Terminal أو iTerm أو Windows Terminal انسخ ونفّذ هذا الأمر: npx skills add https://github.com/yonatangross/skillforge-claude-plugin --skill high-performance-inference بعد التثبيت، سيتم إعداد المهارة تلقائيا في بيئة البرمجة بالذكاء الاصطناعي لديك وتصبح جاهزة للاستخدام في Claude Code أو Cursor أو OpenClaw

أين مستودع المصدر؟

https://github.com/yonatangross/skillforge-claude-plugin