·agent-evaluation
</>

agent-evaluation

zpankz/mcp-skillset

Claude Code 명령, 기술 및 에이전트를 평가하고 개선합니다. 즉각적인 효과를 테스트하거나, 컨텍스트 엔지니어링 선택을 검증하거나, 개선 품질을 측정할 때 사용합니다.

6설치·0트렌드·@zpankz

설치

$npx skills add https://github.com/zpankz/mcp-skillset --skill agent-evaluation

SKILL.md

Evaluation of agent systems requires different approaches than traditional software or even standard language model applications. Agents make dynamic decisions, are non-deterministic between runs, and often lack single correct answers. Effective evaluation must account for these characteristics while providing actionable feedback. A robust evaluation framework enables continuous improvement, catches regressions, a...

Agent evaluation requires outcome-focused approaches that account for non-determinism and multiple valid paths. Multi-dimensional rubrics capture various quality aspects: factual accuracy, completeness, citation accuracy, source quality, and tool efficiency. LLM-as-judge provides scalable evaluation while human evaluation catches edge cases.

The key insight is that agents may find alternative paths to goals—the evaluation should judge whether they achieve right outcomes while following reasonable processes.

Claude Code 명령, 기술 및 에이전트를 평가하고 개선합니다. 즉각적인 효과를 테스트하거나, 컨텍스트 엔지니어링 선택을 검증하거나, 개선 품질을 측정할 때 사용합니다. 출처: zpankz/mcp-skillset.

원본 보기

인용 가능한 정보

AI/검색 인용용 안정적인 필드와 명령어.

설치 명령어
npx skills add https://github.com/zpankz/mcp-skillset --skill agent-evaluation
카테고리
</>개발 도구
인증됨
최초 등록
2026-02-01
업데이트
2026-02-18

빠른 답변

agent-evaluation이란?

Claude Code 명령, 기술 및 에이전트를 평가하고 개선합니다. 즉각적인 효과를 테스트하거나, 컨텍스트 엔지니어링 선택을 검증하거나, 개선 품질을 측정할 때 사용합니다. 출처: zpankz/mcp-skillset.

agent-evaluation 설치 방법은?

터미널 또는 명령줄 도구(Terminal, iTerm, Windows Terminal 등)를 엽니다 이 명령어를 복사하여 실행합니다: npx skills add https://github.com/zpankz/mcp-skillset --skill agent-evaluation 설치 후 스킬은 자동으로 AI 코딩 환경에 설정되어 Claude Code나 Cursor에서 사용할 수 있습니다

소스 저장소는 어디인가요?

https://github.com/zpankz/mcp-skillset