ما هي llm-as-a-judge؟
قم ببناء مقيمي LLM-as-Judge والتحقق من صحتهم ونشرهم لتقييم الجودة الآلي لمخرجات خط أنابيب LLM. استخدم هذه المهارة عندما يريد المستخدم: إنشاء مقيم آلي لأوضاع الفشل الذاتية أو الدقيقة، أو كتابة موجه حكم لتقييم النجاح/الفشل، أو تقسيم البيانات المصنفة لتطوير القاضي، أو قياس محاذاة القاضي (TPR/TNR)، أو تقدير معدلات النجاح الحقيقية مع تصحيح التحيز، أو إعداد خطوط أنابيب تقييم CI. يتم تشغيله أيضًا عندما يذكر المستخدم "مطالبة القاضي"، أو "التقييم التلقائي"، أو "مقيم LLM"، أو "مطالبة التقدير"، أو "مقاييس المحاذاة"، أو "المعدل الإيجابي الحقيقي"، أو يريد الانتقال من مراجعة التتبع اليدوية إلى التقييم الآلي. تغطي هذه المهارة دورة الحياة الكاملة: التصميم الفوري ← تقسيم البيانات ← التحسين التكراري ← تقدير معدل النجاح. المصدر: maragudk/evals-skills.