ما هي pydantic-evals؟
اختبار وتقييم وكلاء الذكاء الاصطناعي ومخرجات LLM باستخدام إطار تقييم الكود الأول مع الكتابة القوية. يُستخدم عندما يريد المستخدم: (1) إنشاء مجموعات بيانات تقييم مع حالات اختبار لوكلاء الذكاء الاصطناعي، (2) تحديد المقيمين (حتمي، أو LLM-as-Judge، أو مخصص، أو قائم على النطاق)، (3) تشغيل التقييمات وإنشاء التقارير، (4) مقارنة أداء النموذج عبر التجارب، (5) دمج التقييمات مع وكلاء Pydantic AI، (6) إعداد إمكانية المراقبة باستخدام Logfire، (7) إنشاء مجموعات بيانات اختبار باستخدام LLMs، (8) تنفيذ اختبار الانحدار لأنظمة الذكاء الاصطناعي. المصدر: fuenfgeld/pydantic-ai-skills.