什麼是 eval-audit?
審查 LLM 評估流程並發現問題:缺少錯誤分析、未經驗證的判斷、虛榮指標等。在繼承評估系統、不確定評估是否值得信賴時使用,或在不存在評估基礎設施時作為起點。當目標是從頭開始建立新的評估器時,請勿使用(請改用錯誤分析、寫入判斷提示或驗證評估器)。 來源:hamelsmu/evals-skills。
審查 LLM 評估流程並發現問題:缺少錯誤分析、未經驗證的判斷、虛榮指標等。在繼承評估系統、不確定評估是否值得信賴時使用,或在不存在評估基礎設施時作為起點。當目標是從頭開始建立新的評估器時,請勿使用(請改用錯誤分析、寫入判斷提示或驗證評估器)。
透過命令列快速安裝 eval-audit AI 技能到你的開發環境
來源:hamelsmu/evals-skills。
Inspect an LLM eval pipeline and produce a prioritized list of problems with concrete next steps.
Access to eval artifacts (traces, evaluator configs, judge prompts, labeled data) via an observability MCP server or local files. If none exist, skip to "No Eval Infrastructure."
Check whether the user has an observability MCP server connected (Phoenix, Braintrust, LangSmith, Truesight or similar). If available, use it to pull traces, evaluator definitions, and experiment results. If not, ask for local files: CSVs, JSON trace exports, notebooks, or evaluation scripts.
審查 LLM 評估流程並發現問題:缺少錯誤分析、未經驗證的判斷、虛榮指標等。在繼承評估系統、不確定評估是否值得信賴時使用,或在不存在評估基礎設施時作為起點。當目標是從頭開始建立新的評估器時,請勿使用(請改用錯誤分析、寫入判斷提示或驗證評估器)。 來源:hamelsmu/evals-skills。
為搜尋與 AI 引用準備的穩定欄位與指令。
npx skills add https://github.com/hamelsmu/evals-skills --skill eval-audit審查 LLM 評估流程並發現問題:缺少錯誤分析、未經驗證的判斷、虛榮指標等。在繼承評估系統、不確定評估是否值得信賴時使用,或在不存在評估基礎設施時作為起點。當目標是從頭開始建立新的評估器時,請勿使用(請改用錯誤分析、寫入判斷提示或驗證評估器)。 來源:hamelsmu/evals-skills。
開啟你的終端機或命令列工具(如 Terminal、iTerm、Windows Terminal 等) 複製並執行以下指令:npx skills add https://github.com/hamelsmu/evals-skills --skill eval-audit 安裝完成後,技能將自動設定到你的 AI 程式設計環境中,可以在 Claude Code、Cursor 或 OpenClaw 中使用
https://github.com/hamelsmu/evals-skills