·validate-evaluator
{}

validate-evaluator

قم بمعايرة قاضي LLM مقابل التسميات البشرية باستخدام تقسيمات البيانات، وTPR/TNR، وتصحيح التحيز. استخدمه بعد كتابة موجه الحكم (مطالبة الكتابة) عندما تحتاج إلى التحقق من المحاذاة قبل الوثوق بمخرجاتها. لا تستخدم للمقيمين القائمين على التعليمات البرمجية (هؤلاء حتميون؛ اختبار باستخدام اختبارات الوحدة القياسية).

72التثبيتات·2الرائج·@hamelsmu

التثبيت

$npx skills add https://github.com/hamelsmu/evals-skills --skill validate-evaluator

كيفية تثبيت validate-evaluator

ثبّت مهارة الذكاء الاصطناعي validate-evaluator بسرعة في بيئة التطوير لديك عبر سطر الأوامر

  1. افتح الطرفية: افتح الطرفية أو أداة سطر الأوامر لديك مثل Terminal أو iTerm أو Windows Terminal
  2. نفّذ أمر التثبيت: انسخ ونفّذ هذا الأمر: npx skills add https://github.com/hamelsmu/evals-skills --skill validate-evaluator
  3. تحقق من التثبيت: بعد التثبيت، سيتم إعداد المهارة تلقائيا في بيئة البرمجة بالذكاء الاصطناعي لديك وتصبح جاهزة للاستخدام في Claude Code أو Cursor أو OpenClaw

المصدر: hamelsmu/evals-skills.

| Training | 10-20% (10-20 examples) | Source of few-shot examples for the judge prompt | Only clear-cut Pass and Fail cases. Used directly in the prompt. | | Dev | 40-45% (40-45 examples) | Iterative evaluator refinement | Never include in the prompt. Evaluate against repeatedly. |

| Test | 40-45% (40-45 examples) | Final unbiased accuracy measurement | Do NOT look at during development. Used once at the end. |

Target: 30-50 examples of each class (Pass and Fail) across dev and test combined. Use balanced splits even if real-world prevalence is skewed — you need enough Fail examples to measure TNR reliably.

قم بمعايرة قاضي LLM مقابل التسميات البشرية باستخدام تقسيمات البيانات، وTPR/TNR، وتصحيح التحيز. استخدمه بعد كتابة موجه الحكم (مطالبة الكتابة) عندما تحتاج إلى التحقق من المحاذاة قبل الوثوق بمخرجاتها. لا تستخدم للمقيمين القائمين على التعليمات البرمجية (هؤلاء حتميون؛ اختبار باستخدام اختبارات الوحدة القياسية). المصدر: hamelsmu/evals-skills.

حقائق جاهزة للاقتباس

حقول وأوامر مستقرة للاقتباس في أنظمة الذكاء الاصطناعي والبحث.

أمر التثبيت
npx skills add https://github.com/hamelsmu/evals-skills --skill validate-evaluator
الفئة
{}تحليل البيانات
موثق
أول ظهور
2026-03-04
آخر تحديث
2026-03-10

Browse more skills from hamelsmu/evals-skills

إجابات سريعة

ما هي validate-evaluator؟

قم بمعايرة قاضي LLM مقابل التسميات البشرية باستخدام تقسيمات البيانات، وTPR/TNR، وتصحيح التحيز. استخدمه بعد كتابة موجه الحكم (مطالبة الكتابة) عندما تحتاج إلى التحقق من المحاذاة قبل الوثوق بمخرجاتها. لا تستخدم للمقيمين القائمين على التعليمات البرمجية (هؤلاء حتميون؛ اختبار باستخدام اختبارات الوحدة القياسية). المصدر: hamelsmu/evals-skills.

كيف أثبّت validate-evaluator؟

افتح الطرفية أو أداة سطر الأوامر لديك مثل Terminal أو iTerm أو Windows Terminal انسخ ونفّذ هذا الأمر: npx skills add https://github.com/hamelsmu/evals-skills --skill validate-evaluator بعد التثبيت، سيتم إعداد المهارة تلقائيا في بيئة البرمجة بالذكاء الاصطناعي لديك وتصبح جاهزة للاستخدام في Claude Code أو Cursor أو OpenClaw

أين مستودع المصدر؟

https://github.com/hamelsmu/evals-skills

التفاصيل

الفئة
{}تحليل البيانات
المصدر
skills.sh
أول ظهور
2026-03-04