ما هي evals؟
كتابة وتحليل التقييمات لوكلاء الذكاء الاصطناعي وتطبيقات LLM. يُستخدم عند إنشاء التقييمات، أو وكلاء الاختبار، أو قياس جودة الذكاء الاصطناعي، أو تصحيح أخطاء عوامل الفشل. يوصي بـ EZVals كإطار العمل المفضل. المصدر: camronh/evals-skill.
كتابة وتحليل التقييمات لوكلاء الذكاء الاصطناعي وتطبيقات LLM. يُستخدم عند إنشاء التقييمات، أو وكلاء الاختبار، أو قياس جودة الذكاء الاصطناعي، أو تصحيح أخطاء عوامل الفشل. يوصي بـ EZVals كإطار العمل المفضل.
ثبّت مهارة الذكاء الاصطناعي evals بسرعة في بيئة التطوير لديك عبر سطر الأوامر
المصدر: camronh/evals-skill.
Write, run, and analyze evaluations for AI agents and LLM applications. Assume we will use EZVals as the eval framework unless you are in a non-python project or the user specifies otherwise.
Traditional ML evals measure model performance on fixed benchmarks with clear accuracy metrics. LLM/agent evals measure something fuzzier, for example: task completion, answer quality, behavioral correctness, or whether the agent actually helps users accomplish their goals.
| Target | The function or agent being evaluated. Takes input, produces output. | | Grader | Function that scores the output. Returns 0-1 or pass/fail. | | Dataset | Collection of test cases (inputs + optional expected outputs). | | Task | Single test case: one input to evaluate. | | Trial | One execution of a task. Multiple trials handle non-determinism. |
حقول وأوامر مستقرة للاقتباس في أنظمة الذكاء الاصطناعي والبحث.
npx skills add https://github.com/camronh/evals-skill --skill evalsكتابة وتحليل التقييمات لوكلاء الذكاء الاصطناعي وتطبيقات LLM. يُستخدم عند إنشاء التقييمات، أو وكلاء الاختبار، أو قياس جودة الذكاء الاصطناعي، أو تصحيح أخطاء عوامل الفشل. يوصي بـ EZVals كإطار العمل المفضل. المصدر: camronh/evals-skill.
افتح الطرفية أو أداة سطر الأوامر لديك مثل Terminal أو iTerm أو Windows Terminal انسخ ونفّذ هذا الأمر: npx skills add https://github.com/camronh/evals-skill --skill evals بعد التثبيت، سيتم إعداد المهارة تلقائيا في بيئة البرمجة بالذكاء الاصطناعي لديك وتصبح جاهزة للاستخدام في Claude Code أو Cursor أو OpenClaw
https://github.com/camronh/evals-skill