·llm-as-a-judge
</>

llm-as-a-judge

قم ببناء مقيمي LLM-as-Judge والتحقق من صحتهم ونشرهم لتقييم الجودة الآلي لمخرجات خط أنابيب LLM. استخدم هذه المهارة عندما يريد المستخدم: إنشاء مقيم آلي لأوضاع الفشل الذاتية أو الدقيقة، أو كتابة موجه حكم لتقييم النجاح/الفشل، أو تقسيم البيانات المصنفة لتطوير القاضي، أو قياس محاذاة القاضي (TPR/TNR)، أو تقدير معدلات النجاح الحقيقية مع تصحيح التحيز، أو إعداد خطوط أنابيب تقييم CI. يتم تشغيله أيضًا عندما يذكر المستخدم "مطالبة القاضي"، أو "التقييم التلقائي"، أو "مقيم LLM"، أو "مطالبة التقدير"، أو "مقاييس المحاذاة"، أو "المعدل الإيجابي الحقيقي"، أو يريد الانتقال من مراجعة التتبع اليدوية إلى التقييم الآلي. تغطي هذه المهارة دورة الحياة الكاملة: التصميم الفوري ← تقسيم البيانات ← التحسين التكراري ← تقدير معدل النجاح.

8التثبيتات·0الرائج·@maragudk

التثبيت

$npx skills add https://github.com/maragudk/evals-skills --skill llm-as-a-judge

كيفية تثبيت llm-as-a-judge

ثبّت مهارة الذكاء الاصطناعي llm-as-a-judge بسرعة في بيئة التطوير لديك عبر سطر الأوامر

  1. افتح الطرفية: افتح الطرفية أو أداة سطر الأوامر لديك مثل Terminal أو iTerm أو Windows Terminal
  2. نفّذ أمر التثبيت: انسخ ونفّذ هذا الأمر: npx skills add https://github.com/maragudk/evals-skills --skill llm-as-a-judge
  3. تحقق من التثبيت: بعد التثبيت، سيتم إعداد المهارة تلقائيا في بيئة البرمجة بالذكاء الاصطناعي لديك وتصبح جاهزة للاستخدام في Claude Code أو Cursor أو OpenClaw

المصدر: maragudk/evals-skills.

Build reliable automated evaluators that use an LLM to judge the outputs of another LLM pipeline. Each judge targets a single, binary (Pass/Fail) failure mode identified during error analysis.

Use code-based evaluators when the failure is objective and deterministic:

Each failure mode gets its own dedicated evaluator. Never combine multiple criteria into a single judge prompt—this introduces ambiguity and makes diagnosis harder.

قم ببناء مقيمي LLM-as-Judge والتحقق من صحتهم ونشرهم لتقييم الجودة الآلي لمخرجات خط أنابيب LLM. استخدم هذه المهارة عندما يريد المستخدم: إنشاء مقيم آلي لأوضاع الفشل الذاتية أو الدقيقة، أو كتابة موجه حكم لتقييم النجاح/الفشل، أو تقسيم البيانات المصنفة لتطوير القاضي، أو قياس محاذاة القاضي (TPR/TNR)، أو تقدير معدلات النجاح الحقيقية مع تصحيح التحيز، أو إعداد خطوط أنابيب تقييم CI. يتم تشغيله أيضًا عندما يذكر المستخدم "مطالبة القاضي"، أو "التقييم التلقائي"، أو "مقيم LLM"، أو "مطالبة التقدير"، أو "مقاييس المحاذاة"، أو "المعدل الإيجابي الحقيقي"، أو يريد الانتقال من مراجعة التتبع اليدوية إلى التقييم الآلي. تغطي هذه المهارة دورة الحياة الكاملة: التصميم الفوري ← تقسيم البيانات ← التحسين التكراري ← تقدير معدل النجاح. المصدر: maragudk/evals-skills.

حقائق جاهزة للاقتباس

حقول وأوامر مستقرة للاقتباس في أنظمة الذكاء الاصطناعي والبحث.

أمر التثبيت
npx skills add https://github.com/maragudk/evals-skills --skill llm-as-a-judge
الفئة
</>أدوات التطوير
موثق
أول ظهور
2026-02-22
آخر تحديث
2026-03-10

Browse more skills from maragudk/evals-skills

إجابات سريعة

ما هي llm-as-a-judge؟

قم ببناء مقيمي LLM-as-Judge والتحقق من صحتهم ونشرهم لتقييم الجودة الآلي لمخرجات خط أنابيب LLM. استخدم هذه المهارة عندما يريد المستخدم: إنشاء مقيم آلي لأوضاع الفشل الذاتية أو الدقيقة، أو كتابة موجه حكم لتقييم النجاح/الفشل، أو تقسيم البيانات المصنفة لتطوير القاضي، أو قياس محاذاة القاضي (TPR/TNR)، أو تقدير معدلات النجاح الحقيقية مع تصحيح التحيز، أو إعداد خطوط أنابيب تقييم CI. يتم تشغيله أيضًا عندما يذكر المستخدم "مطالبة القاضي"، أو "التقييم التلقائي"، أو "مقيم LLM"، أو "مطالبة التقدير"، أو "مقاييس المحاذاة"، أو "المعدل الإيجابي الحقيقي"، أو يريد الانتقال من مراجعة التتبع اليدوية إلى التقييم الآلي. تغطي هذه المهارة دورة الحياة الكاملة: التصميم الفوري ← تقسيم البيانات ← التحسين التكراري ← تقدير معدل النجاح. المصدر: maragudk/evals-skills.

كيف أثبّت llm-as-a-judge؟

افتح الطرفية أو أداة سطر الأوامر لديك مثل Terminal أو iTerm أو Windows Terminal انسخ ونفّذ هذا الأمر: npx skills add https://github.com/maragudk/evals-skills --skill llm-as-a-judge بعد التثبيت، سيتم إعداد المهارة تلقائيا في بيئة البرمجة بالذكاء الاصطناعي لديك وتصبح جاهزة للاستخدام في Claude Code أو Cursor أو OpenClaw

أين مستودع المصدر؟

https://github.com/maragudk/evals-skills

التفاصيل

الفئة
</>أدوات التطوير
المصدر
skills.sh
أول ظهور
2026-02-22