Inspect an LLM eval pipeline and produce a prioritized list of problems with concrete next steps.
Access to eval artifacts (traces, evaluator configs, judge prompts, labeled data) via an observability MCP server or local files. If none exist, skip to "No Eval Infrastructure."
Check whether the user has an observability MCP server connected (Phoenix, Braintrust, LangSmith, Truesight or similar). If available, use it to pull traces, evaluator definitions, and experiment results. If not, ask for local files: CSVs, JSON trace exports, notebooks, or evaluation scripts.
قم بتدقيق خط أنابيب تقييم LLM والمشكلات السطحية: تحليل الأخطاء المفقودة، والقضاة الذين لم يتم التحقق من صحتهم، ومقاييس الغرور، وما إلى ذلك. استخدم عند وراثة نظام التقييم، عندما لا تكون متأكدًا مما إذا كانت التقييمات جديرة بالثقة، أو كنقطة بداية عندما لا توجد بنية تحتية للتقييم. لا تستخدم عندما يكون الهدف هو بناء مقيم جديد من الصفر (استخدم تحليل الأخطاء، أو مطالبة الحكم بالكتابة، أو التحقق من صحة المقيم بدلاً من ذلك). المصدر: hamelsmu/evals-skills.