·ai-eval-design-and-iteration
*

ai-eval-design-and-iteration

开发“测验”(评估)来衡量特定任务的模型性能。使用这些基准来指导微调、确定产品用户体验模式并跟踪一段时间内的性能改进。在启动新的人工智能功能、在模型版本之间切换或针对高风险精度进行优化时,请使用此功能。

4安装·0热度·@samarv

安装

$npx skills add https://github.com/samarv/shanon --skill ai-eval-design-and-iteration

如何安装 ai-eval-design-and-iteration

通过命令行快速安装 ai-eval-design-and-iteration AI 技能到你的开发环境

  1. 打开终端: 打开你的终端或命令行工具(如 Terminal、iTerm、Windows Terminal 等)
  2. 运行安装命令: 复制并运行以下命令:npx skills add https://github.com/samarv/shanon --skill ai-eval-design-and-iteration
  3. 验证安装: 安装完成后,技能将自动配置到你的 AI 编程环境中,可以在 Claude Code、Cursor 或 OpenClaw 中使用

来源:samarv/shanon。

SKILL.md

查看原文

In traditional software, inputs and outputs are defined. In AI, inputs and outputs are fuzzy. Evals (evaluations) are the "unit tests" for AI products. They allow you to move from "vibes-based" development to metric-driven iteration. By building a rigorous "quiz" for your model, you can determine exactly how capable your product is and where it requires human-in-the-loop scaffolding.

Identify "Hero Use Cases" Don't start with generic benchmarks (like MMLU). Instead, define the specific "hero" scenarios your product must master.

Design the "Quiz" (The Eval) Create a set of tests to gauge how well the model knows the subject material.

开发“测验”(评估)来衡量特定任务的模型性能。使用这些基准来指导微调、确定产品用户体验模式并跟踪一段时间内的性能改进。在启动新的人工智能功能、在模型版本之间切换或针对高风险精度进行优化时,请使用此功能。 来源:samarv/shanon。

可引用信息

为搜索与 AI 引用准备的稳定字段与命令。

安装命令
npx skills add https://github.com/samarv/shanon --skill ai-eval-design-and-iteration
分类
*创意媒体
认证
收录时间
2026-02-25
更新时间
2026-03-10

Browse more skills from samarv/shanon

快速解答

什么是 ai-eval-design-and-iteration?

开发“测验”(评估)来衡量特定任务的模型性能。使用这些基准来指导微调、确定产品用户体验模式并跟踪一段时间内的性能改进。在启动新的人工智能功能、在模型版本之间切换或针对高风险精度进行优化时,请使用此功能。 来源:samarv/shanon。

如何安装 ai-eval-design-and-iteration?

打开你的终端或命令行工具(如 Terminal、iTerm、Windows Terminal 等) 复制并运行以下命令:npx skills add https://github.com/samarv/shanon --skill ai-eval-design-and-iteration 安装完成后,技能将自动配置到你的 AI 编程环境中,可以在 Claude Code、Cursor 或 OpenClaw 中使用

这个 Skill 的源码在哪?

https://github.com/samarv/shanon