Inspect an LLM eval pipeline and produce a prioritized list of problems with concrete next steps.
Access to eval artifacts (traces, evaluator configs, judge prompts, labeled data) via an observability MCP server or local files. If none exist, skip to "No Eval Infrastructure."
Check whether the user has an observability MCP server connected (Phoenix, Braintrust, LangSmith, Truesight or similar). If available, use it to pull traces, evaluator definitions, and experiment results. If not, ask for local files: CSVs, JSON trace exports, notebooks, or evaluation scripts.
Проведите аудит конвейера оценки LLM и выявите проблемы: отсутствующий анализ ошибок, непроверенные судьи, тщеславные метрики и т. д. Используйте при наследовании системы оценки, если вы не уверены в надежности оценок, или в качестве отправной точки, когда оценочная инфраструктура не существует. НЕ используйте, если целью является создание нового оценщика с нуля (вместо этого используйте анализ ошибок, подсказку для записи или проверку оценщика). Источник: hamelsmu/evals-skills.