agent-evaluation이란?
AI 에이전트를 위한 포괄적인 평가 시스템을 설계하고 구현합니다. 코딩 에이전트, 대화 에이전트, 연구 에이전트 또는 컴퓨터 사용 에이전트에 대한 평가를 구축할 때 사용합니다. 그레이더 유형, 벤치마크, 8단계 로드맵 및 생산 통합을 다룹니다. 출처: akillness/skills-template.
AI 에이전트를 위한 포괄적인 평가 시스템을 설계하고 구현합니다. 코딩 에이전트, 대화 에이전트, 연구 에이전트 또는 컴퓨터 사용 에이전트에 대한 평가를 구축할 때 사용합니다. 그레이더 유형, 벤치마크, 8단계 로드맵 및 생산 통합을 다룹니다.
명령줄에서 agent-evaluation AI 스킬을 개발 환경에 빠르게 설치
출처: akillness/skills-template.
| Type | Turns | State | Grading | Complexity |
| Single-turn | 1 | None | Simple | Low | | Multi-turn | N | Conversation | Per-turn | Medium | | Agentic | N | World + History | Outcome | High |
| Task | Single test case (prompt + expected outcome) | | Trial | One agent run on a task | | Grader | Scoring function (code/model/human) | | Transcript | Full record of agent actions | | Outcome | Final state for grading | | Harness | Infrastructure running evals | | Suite | Collection of related tasks |
AI 에이전트를 위한 포괄적인 평가 시스템을 설계하고 구현합니다. 코딩 에이전트, 대화 에이전트, 연구 에이전트 또는 컴퓨터 사용 에이전트에 대한 평가를 구축할 때 사용합니다. 그레이더 유형, 벤치마크, 8단계 로드맵 및 생산 통합을 다룹니다. 출처: akillness/skills-template.
AI/검색 인용용 안정적인 필드와 명령어.
npx skills add https://github.com/akillness/skills-template --skill agent-evaluationAI 에이전트를 위한 포괄적인 평가 시스템을 설계하고 구현합니다. 코딩 에이전트, 대화 에이전트, 연구 에이전트 또는 컴퓨터 사용 에이전트에 대한 평가를 구축할 때 사용합니다. 그레이더 유형, 벤치마크, 8단계 로드맵 및 생산 통합을 다룹니다. 출처: akillness/skills-template.
터미널 또는 명령줄 도구(Terminal, iTerm, Windows Terminal 등)를 엽니다 이 명령어를 복사하여 실행합니다: npx skills add https://github.com/akillness/skills-template --skill agent-evaluation 설치 후 스킬은 자동으로 AI 코딩 환경에 설정되어 Claude Code, Cursor, OpenClaw에서 사용할 수 있습니다
https://github.com/akillness/skills-template