ما هي agent-evaluation؟
يُستخدم عند تقييم أداء الوكيل، أو بناء أطر الاختبار، أو قياس الجودة، أو السؤال عن "تقييم الوكيل"، أو "LLM-as-قاضي"، أو "اختبار الوكيل"، أو "مقاييس الجودة"، أو "قواعد التقييم"، أو "مقاييس الوكيل" المصدر: eyadsibai/ltk.
يُستخدم عند تقييم أداء الوكيل، أو بناء أطر الاختبار، أو قياس الجودة، أو السؤال عن "تقييم الوكيل"، أو "LLM-as-قاضي"، أو "اختبار الوكيل"، أو "مقاييس الجودة"، أو "قواعد التقييم"، أو "مقاييس الوكيل"
ثبّت مهارة الذكاء الاصطناعي agent-evaluation بسرعة في بيئة التطوير لديك عبر سطر الأوامر
المصدر: eyadsibai/ltk.
Agent evaluation requires different approaches than traditional software. Agents are non-deterministic, may take different valid paths, and lack single correct answers.
Research on BrowseComp found three factors explain 95% of variance:
| Token usage | 80% | More tokens = better performance | | Tool calls | 10% | More exploration helps | | Model choice | 5% | Better models multiply efficiency |
يُستخدم عند تقييم أداء الوكيل، أو بناء أطر الاختبار، أو قياس الجودة، أو السؤال عن "تقييم الوكيل"، أو "LLM-as-قاضي"، أو "اختبار الوكيل"، أو "مقاييس الجودة"، أو "قواعد التقييم"، أو "مقاييس الوكيل" المصدر: eyadsibai/ltk.
حقول وأوامر مستقرة للاقتباس في أنظمة الذكاء الاصطناعي والبحث.
npx skills add https://github.com/eyadsibai/ltk --skill agent-evaluationيُستخدم عند تقييم أداء الوكيل، أو بناء أطر الاختبار، أو قياس الجودة، أو السؤال عن "تقييم الوكيل"، أو "LLM-as-قاضي"، أو "اختبار الوكيل"، أو "مقاييس الجودة"، أو "قواعد التقييم"، أو "مقاييس الوكيل" المصدر: eyadsibai/ltk.
افتح الطرفية أو أداة سطر الأوامر لديك مثل Terminal أو iTerm أو Windows Terminal انسخ ونفّذ هذا الأمر: npx skills add https://github.com/eyadsibai/ltk --skill agent-evaluation بعد التثبيت، سيتم إعداد المهارة تلقائيا في بيئة البرمجة بالذكاء الاصطناعي لديك وتصبح جاهزة للاستخدام في Claude Code أو Cursor أو OpenClaw
https://github.com/eyadsibai/ltk