Evaluate Large Language Model (LLM) systems using automated metrics, LLM-as-judge patterns, and standardized benchmarks to ensure production quality and safety.
| Task Type | Primary Approach | Metrics | Tools |
| Classification (sentiment, intent) | Automated metrics | Accuracy, Precision, Recall, F1 | scikit-learn | | Generation (summaries, creative text) | LLM-as-judge + automated | BLEU, ROUGE, BERTScore, Quality rubric | GPT-4/Claude for judging | | Question Answering | Exact match + semantic similarity | EM, F1, Cosine similarity | Custom evaluators |
تقييم أنظمة LLM باستخدام المقاييس الآلية، وLLM كحكم، والمعايير. يُستخدم عند اختبار الجودة السريعة، أو التحقق من صحة خطوط أنابيب RAG، أو قياس السلامة (الهلوسة، أو التحيز)، أو مقارنة النماذج لنشر الإنتاج. المصدر: ancoleman/ai-design-components.