·eval-audit
{}

eval-audit

審查 LLM 評估流程並發現問題:缺少錯誤分析、未經驗證的判斷、虛榮指標等。在繼承評估系統、不確定評估是否值得信賴時使用,或在不存在評估基礎設施時作為起點。當目標是從頭開始建立新的評估器時,請勿使用(請改用錯誤分析、寫入判斷提示或驗證評估器)。

81安裝·3熱度·@hamelsmu

安裝

$npx skills add https://github.com/hamelsmu/evals-skills --skill eval-audit

如何安裝 eval-audit

透過命令列快速安裝 eval-audit AI 技能到你的開發環境

  1. 開啟終端機: 開啟你的終端機或命令列工具(如 Terminal、iTerm、Windows Terminal 等)
  2. 執行安裝指令: 複製並執行以下指令:npx skills add https://github.com/hamelsmu/evals-skills --skill eval-audit
  3. 驗證安裝: 安裝完成後,技能將自動設定到你的 AI 程式設計環境中,可以在 Claude Code、Cursor 或 OpenClaw 中使用

來源:hamelsmu/evals-skills。

SKILL.md

查看原文

Inspect an LLM eval pipeline and produce a prioritized list of problems with concrete next steps.

Access to eval artifacts (traces, evaluator configs, judge prompts, labeled data) via an observability MCP server or local files. If none exist, skip to "No Eval Infrastructure."

Check whether the user has an observability MCP server connected (Phoenix, Braintrust, LangSmith, Truesight or similar). If available, use it to pull traces, evaluator definitions, and experiment results. If not, ask for local files: CSVs, JSON trace exports, notebooks, or evaluation scripts.

審查 LLM 評估流程並發現問題:缺少錯誤分析、未經驗證的判斷、虛榮指標等。在繼承評估系統、不確定評估是否值得信賴時使用,或在不存在評估基礎設施時作為起點。當目標是從頭開始建立新的評估器時,請勿使用(請改用錯誤分析、寫入判斷提示或驗證評估器)。 來源:hamelsmu/evals-skills。

可引用資訊

為搜尋與 AI 引用準備的穩定欄位與指令。

安裝指令
npx skills add https://github.com/hamelsmu/evals-skills --skill eval-audit
分類
{}資料分析
認證
收錄時間
2026-03-04
更新時間
2026-03-10

Browse more skills from hamelsmu/evals-skills

快速解答

什麼是 eval-audit?

審查 LLM 評估流程並發現問題:缺少錯誤分析、未經驗證的判斷、虛榮指標等。在繼承評估系統、不確定評估是否值得信賴時使用,或在不存在評估基礎設施時作為起點。當目標是從頭開始建立新的評估器時,請勿使用(請改用錯誤分析、寫入判斷提示或驗證評估器)。 來源:hamelsmu/evals-skills。

如何安裝 eval-audit?

開啟你的終端機或命令列工具(如 Terminal、iTerm、Windows Terminal 等) 複製並執行以下指令:npx skills add https://github.com/hamelsmu/evals-skills --skill eval-audit 安裝完成後,技能將自動設定到你的 AI 程式設計環境中,可以在 Claude Code、Cursor 或 OpenClaw 中使用

這個 Skill 的原始碼在哪?

https://github.com/hamelsmu/evals-skills