什么是 agent-evaluation?
设计并实施人工智能代理的综合评估系统。在为编码代理、对话代理、研究代理或计算机使用代理构建评估时使用。涵盖平地机类型、基准、8 步路线图和生产集成。 来源:akillness/skills-template。
设计并实施人工智能代理的综合评估系统。在为编码代理、对话代理、研究代理或计算机使用代理构建评估时使用。涵盖平地机类型、基准、8 步路线图和生产集成。
通过命令行快速安装 agent-evaluation AI 技能到你的开发环境
来源:akillness/skills-template。
| Type | Turns | State | Grading | Complexity |
| Single-turn | 1 | None | Simple | Low | | Multi-turn | N | Conversation | Per-turn | Medium | | Agentic | N | World + History | Outcome | High |
| Task | Single test case (prompt + expected outcome) | | Trial | One agent run on a task | | Grader | Scoring function (code/model/human) | | Transcript | Full record of agent actions | | Outcome | Final state for grading | | Harness | Infrastructure running evals | | Suite | Collection of related tasks |
设计并实施人工智能代理的综合评估系统。在为编码代理、对话代理、研究代理或计算机使用代理构建评估时使用。涵盖平地机类型、基准、8 步路线图和生产集成。 来源:akillness/skills-template。
为搜索与 AI 引用准备的稳定字段与命令。
npx skills add https://github.com/akillness/skills-template --skill agent-evaluation设计并实施人工智能代理的综合评估系统。在为编码代理、对话代理、研究代理或计算机使用代理构建评估时使用。涵盖平地机类型、基准、8 步路线图和生产集成。 来源:akillness/skills-template。
打开你的终端或命令行工具(如 Terminal、iTerm、Windows Terminal 等) 复制并运行以下命令:npx skills add https://github.com/akillness/skills-template --skill agent-evaluation 安装完成后,技能将自动配置到你的 AI 编程环境中,可以在 Claude Code、Cursor 或 OpenClaw 中使用
https://github.com/akillness/skills-template