ما هي agent-evaluation؟
اختبار وقياس وكلاء LLM بما في ذلك الاختبار السلوكي وتقييم القدرات ومقاييس الموثوقية ومراقبة الإنتاج - حيث يحقق أفضل الوكلاء أقل من 50٪ في معايير العالم الحقيقي. استخدم عندما: اختبار الوكيل، تقييم الوكيل، وكلاء القياس، موثوقية الوكيل، وكيل الاختبار. المصدر: sickn33/antigravity-awesome-skills.