·evaluating-llms
</>

evaluating-llms

تقييم أنظمة LLM باستخدام المقاييس الآلية، وLLM كحكم، والمعايير. يُستخدم عند اختبار الجودة السريعة، أو التحقق من صحة خطوط أنابيب RAG، أو قياس السلامة (الهلوسة، أو التحيز)، أو مقارنة النماذج لنشر الإنتاج.

15التثبيتات·0الرائج·@ancoleman

التثبيت

$npx skills add https://github.com/ancoleman/ai-design-components --skill evaluating-llms

كيفية تثبيت evaluating-llms

ثبّت مهارة الذكاء الاصطناعي evaluating-llms بسرعة في بيئة التطوير لديك عبر سطر الأوامر

  1. افتح الطرفية: افتح الطرفية أو أداة سطر الأوامر لديك مثل Terminal أو iTerm أو Windows Terminal
  2. نفّذ أمر التثبيت: انسخ ونفّذ هذا الأمر: npx skills add https://github.com/ancoleman/ai-design-components --skill evaluating-llms
  3. تحقق من التثبيت: بعد التثبيت، سيتم إعداد المهارة تلقائيا في بيئة البرمجة بالذكاء الاصطناعي لديك وتصبح جاهزة للاستخدام في Claude Code أو Cursor أو OpenClaw

المصدر: ancoleman/ai-design-components.

Evaluate Large Language Model (LLM) systems using automated metrics, LLM-as-judge patterns, and standardized benchmarks to ensure production quality and safety.

| Task Type | Primary Approach | Metrics | Tools |

| Classification (sentiment, intent) | Automated metrics | Accuracy, Precision, Recall, F1 | scikit-learn | | Generation (summaries, creative text) | LLM-as-judge + automated | BLEU, ROUGE, BERTScore, Quality rubric | GPT-4/Claude for judging | | Question Answering | Exact match + semantic similarity | EM, F1, Cosine similarity | Custom evaluators |

تقييم أنظمة LLM باستخدام المقاييس الآلية، وLLM كحكم، والمعايير. يُستخدم عند اختبار الجودة السريعة، أو التحقق من صحة خطوط أنابيب RAG، أو قياس السلامة (الهلوسة، أو التحيز)، أو مقارنة النماذج لنشر الإنتاج. المصدر: ancoleman/ai-design-components.

حقائق جاهزة للاقتباس

حقول وأوامر مستقرة للاقتباس في أنظمة الذكاء الاصطناعي والبحث.

أمر التثبيت
npx skills add https://github.com/ancoleman/ai-design-components --skill evaluating-llms
الفئة
</>أدوات التطوير
موثق
أول ظهور
2026-02-01
آخر تحديث
2026-03-10

Browse more skills from ancoleman/ai-design-components

إجابات سريعة

ما هي evaluating-llms؟

تقييم أنظمة LLM باستخدام المقاييس الآلية، وLLM كحكم، والمعايير. يُستخدم عند اختبار الجودة السريعة، أو التحقق من صحة خطوط أنابيب RAG، أو قياس السلامة (الهلوسة، أو التحيز)، أو مقارنة النماذج لنشر الإنتاج. المصدر: ancoleman/ai-design-components.

كيف أثبّت evaluating-llms؟

افتح الطرفية أو أداة سطر الأوامر لديك مثل Terminal أو iTerm أو Windows Terminal انسخ ونفّذ هذا الأمر: npx skills add https://github.com/ancoleman/ai-design-components --skill evaluating-llms بعد التثبيت، سيتم إعداد المهارة تلقائيا في بيئة البرمجة بالذكاء الاصطناعي لديك وتصبح جاهزة للاستخدام في Claude Code أو Cursor أو OpenClaw

أين مستودع المصدر؟

https://github.com/ancoleman/ai-design-components