agent-evaluation
✓设计并实施人工智能代理的综合评估系统。在为编码代理、对话代理、研究代理或计算机使用代理构建评估时使用。涵盖平地机类型、基准、8 步路线图和生产集成。
SKILL.md
| Type | Turns | State | Grading | Complexity |
| Single-turn | 1 | None | Simple | Low | | Multi-turn | N | Conversation | Per-turn | Medium | | Agentic | N | World + History | Outcome | High |
| Task | Single test case (prompt + expected outcome) | | Trial | One agent run on a task | | Grader | Scoring function (code/model/human) | | Transcript | Full record of agent actions | | Outcome | Final state for grading | | Harness | Infrastructure running evals | | Suite | Collection of related tasks |
设计并实施人工智能代理的综合评估系统。在为编码代理、对话代理、研究代理或计算机使用代理构建评估时使用。涵盖平地机类型、基准、8 步路线图和生产集成。 来源:supercent-io/skills-template。
可引用信息
为搜索与 AI 引用准备的稳定字段与命令。
- 安装命令
npx skills add https://github.com/supercent-io/skills-template --skill agent-evaluation- 分类
- </>开发工具
- 认证
- ✓
- 收录时间
- 2026-02-18
- 更新时间
- 2026-02-18
快速解答
什么是 agent-evaluation?
设计并实施人工智能代理的综合评估系统。在为编码代理、对话代理、研究代理或计算机使用代理构建评估时使用。涵盖平地机类型、基准、8 步路线图和生产集成。 来源:supercent-io/skills-template。
如何安装 agent-evaluation?
打开你的终端或命令行工具(如 Terminal、iTerm、Windows Terminal 等) 复制并运行以下命令:npx skills add https://github.com/supercent-io/skills-template --skill agent-evaluation 安装完成后,技能将自动配置到你的 AI 编程环境中,可以在 Claude Code 或 Cursor 中使用
这个 Skill 的源码在哪?
https://github.com/supercent-io/skills-template
详情
- 分类
- </>开发工具
- 来源
- skills.sh
- 收录时间
- 2026-02-18