Inspect an LLM eval pipeline and produce a prioritized list of problems with concrete next steps.
Access to eval artifacts (traces, evaluator configs, judge prompts, labeled data) via an observability MCP server or local files. If none exist, skip to "No Eval Infrastructure."
Check whether the user has an observability MCP server connected (Phoenix, Braintrust, LangSmith, Truesight or similar). If available, use it to pull traces, evaluator definitions, and experiment results. If not, ask for local files: CSVs, JSON trace exports, notebooks, or evaluation scripts.
LLM 평가 파이프라인을 감사하고 문제를 표면화합니다(누락된 오류 분석, 검증되지 않은 판단, 허영 메트릭 등). 평가 시스템을 상속할 때, 평가가 신뢰할 수 있는지 확실하지 않은 경우 또는 평가 인프라가 없는 경우 시작점으로 사용합니다. 목표가 처음부터 새로운 평가기를 구축하는 것이라면 사용하지 마십시오(대신 오류 분석, 쓰기 판단 프롬프트 또는 검증 평가기를 사용하십시오). 출처: hamelsmu/evals-skills.