什么是 write-judge-prompt?
为基于代码的检查无法处理的主观标准设计 LLM-as-Judge 评估器。当故障模式需要解释(语气、忠实性、相关性、完整性)时使用。当可以使用代码(正则表达式、模式验证、执行测试)检查故障模式时,请勿使用。当您需要验证或校准判断时,请勿使用 - 请改用 validate-evaluator。 来源:hamelsmu/evals-skills。
为基于代码的检查无法处理的主观标准设计 LLM-as-Judge 评估器。当故障模式需要解释(语气、忠实性、相关性、完整性)时使用。当可以使用代码(正则表达式、模式验证、执行测试)检查故障模式时,请勿使用。当您需要验证或校准判断时,请勿使用 - 请改用 validate-evaluator。
通过命令行快速安装 write-judge-prompt AI 技能到你的开发环境
来源:hamelsmu/evals-skills。
Design a binary Pass/Fail LLM-as-Judge evaluator for one specific failure mode. Each judge checks exactly one thing.
State what the judge evaluates. One failure mode per judge.
Not: "Evaluate whether the email is good" or "Rate the email quality from 1-5."
为基于代码的检查无法处理的主观标准设计 LLM-as-Judge 评估器。当故障模式需要解释(语气、忠实性、相关性、完整性)时使用。当可以使用代码(正则表达式、模式验证、执行测试)检查故障模式时,请勿使用。当您需要验证或校准判断时,请勿使用 - 请改用 validate-evaluator。 来源:hamelsmu/evals-skills。
为搜索与 AI 引用准备的稳定字段与命令。
npx skills add https://github.com/hamelsmu/evals-skills --skill write-judge-prompt为基于代码的检查无法处理的主观标准设计 LLM-as-Judge 评估器。当故障模式需要解释(语气、忠实性、相关性、完整性)时使用。当可以使用代码(正则表达式、模式验证、执行测试)检查故障模式时,请勿使用。当您需要验证或校准判断时,请勿使用 - 请改用 validate-evaluator。 来源:hamelsmu/evals-skills。
打开你的终端或命令行工具(如 Terminal、iTerm、Windows Terminal 等) 复制并运行以下命令:npx skills add https://github.com/hamelsmu/evals-skills --skill write-judge-prompt 安装完成后,技能将自动配置到你的 AI 编程环境中,可以在 Claude Code、Cursor 或 OpenClaw 中使用
https://github.com/hamelsmu/evals-skills