Inspect an LLM eval pipeline and produce a prioritized list of problems with concrete next steps.
Access to eval artifacts (traces, evaluator configs, judge prompts, labeled data) via an observability MCP server or local files. If none exist, skip to "No Eval Infrastructure."
Check whether the user has an observability MCP server connected (Phoenix, Braintrust, LangSmith, Truesight or similar). If available, use it to pull traces, evaluator definitions, and experiment results. If not, ask for local files: CSVs, JSON trace exports, notebooks, or evaluation scripts.
LLM 評価パイプラインを監査し、エラー分析の欠落、検証されていないジャッジ、バニティ メトリクスなどの問題を表面化します。評価システムを継承するとき、評価が信頼できるかどうか不明な場合、または評価インフラストラクチャが存在しない場合の開始点として使用します。新しいエバリュエーターを最初から構築することが目的の場合は使用しないでください (代わりに、error-analysis、write-judge-prompt、または validate-evaluator を使用してください)。 ソース: hamelsmu/evals-skills。