evaluation
✓이 기술은 사용자가 "에이전트 성능 평가", "테스트 프레임워크 구축", "에이전트 품질 측정", "평가 기준표 생성"을 요청하거나 LLM-판사, 다차원 평가, 에이전트 테스트 또는 에이전트 파이프라인에 대한 품질 게이트를 언급할 때 사용해야 합니다.
SKILL.md
Evaluation of agent systems requires different approaches than traditional software or even standard language model applications. Agents make dynamic decisions, are non-deterministic between runs, and often lack single correct answers. Effective evaluation must account for these characteristics while providing actionable feedback. A robust evaluation framework enables continuous improvement, catches regressions, a...
Agent evaluation requires outcome-focused approaches that account for non-determinism and multiple valid paths. Multi-dimensional rubrics capture various quality aspects: factual accuracy, completeness, citation accuracy, source quality, and tool efficiency. LLM-as-judge provides scalable evaluation while human evaluation catches edge cases.
The key insight is that agents may find alternative paths to goals—the evaluation should judge whether they achieve right outcomes while following reasonable processes.
이 기술은 사용자가 "에이전트 성능 평가", "테스트 프레임워크 구축", "에이전트 품질 측정", "평가 기준표 생성"을 요청하거나 LLM-판사, 다차원 평가, 에이전트 테스트 또는 에이전트 파이프라인에 대한 품질 게이트를 언급할 때 사용해야 합니다. 출처: muratcankoylan/agent-skills-for-context-engineering.
인용 가능한 정보
AI/검색 인용용 안정적인 필드와 명령어.
- 설치 명령어
npx skills add https://github.com/muratcankoylan/agent-skills-for-context-engineering --skill evaluation- 카테고리
- </>개발 도구
- 인증됨
- ✓
- 최초 등록
- 2026-02-01
- 업데이트
- 2026-02-18
빠른 답변
evaluation이란?
이 기술은 사용자가 "에이전트 성능 평가", "테스트 프레임워크 구축", "에이전트 품질 측정", "평가 기준표 생성"을 요청하거나 LLM-판사, 다차원 평가, 에이전트 테스트 또는 에이전트 파이프라인에 대한 품질 게이트를 언급할 때 사용해야 합니다. 출처: muratcankoylan/agent-skills-for-context-engineering.
evaluation 설치 방법은?
터미널 또는 명령줄 도구(Terminal, iTerm, Windows Terminal 등)를 엽니다 이 명령어를 복사하여 실행합니다: npx skills add https://github.com/muratcankoylan/agent-skills-for-context-engineering --skill evaluation 설치 후 스킬은 자동으로 AI 코딩 환경에 설정되어 Claude Code나 Cursor에서 사용할 수 있습니다
소스 저장소는 어디인가요?
https://github.com/muratcankoylan/agent-skills-for-context-engineering
상세
- 카테고리
- </>개발 도구
- 출처
- skills.sh
- 최초 등록
- 2026-02-01