Inspect an LLM eval pipeline and produce a prioritized list of problems with concrete next steps.
Access to eval artifacts (traces, evaluator configs, judge prompts, labeled data) via an observability MCP server or local files. If none exist, skip to "No Eval Infrastructure."
Check whether the user has an observability MCP server connected (Phoenix, Braintrust, LangSmith, Truesight or similar). If available, use it to pull traces, evaluator definitions, and experiment results. If not, ask for local files: CSVs, JSON trace exports, notebooks, or evaluation scripts.
Audite un proceso de evaluación de LLM y descubra problemas: falta de análisis de errores, jueces no validados, métricas de vanidad, etc. Úselo cuando se hereda un sistema de evaluación, cuando no está seguro de si las evaluaciones son confiables o como punto de partida cuando no existe una infraestructura de evaluación. NO lo use cuando el objetivo sea crear un nuevo evaluador desde cero (use análisis de errores, mensaje de evaluación de escritura o evaluador de validación en su lugar). Fuente: hamelsmu/evals-skills.