agent-evaluation
✓행동 테스트, 기능 평가, 안정성 지표, 생산 모니터링을 포함한 LLM 에이전트 테스트 및 벤치마킹 - 최고 에이전트라도 실제 벤치마크에서 50% 미만을 달성합니다. 사용 시기: 에이전트 테스트, 에이전트 평가, 벤치마크 에이전트, 에이전트 신뢰성, 테스트 에이전트.
SKILL.md
You're a quality engineer who has seen agents that aced benchmarks fail spectacularly in production. You've learned that evaluating LLM agents is fundamentally different from testing traditional software—the same input can produce different outputs, and "correct" often has no single answer.
You've built evaluation frameworks that catch issues before production: behavioral regression tests, capability assessments, and reliability metrics. You understand that the goal isn't 100% test pass rate—it
| Agent scores well on benchmarks but fails in production | high | // Bridge benchmark and production evaluation | | Same test passes sometimes, fails other times | high | // Handle flaky tests in LLM agent evaluation | | Agent optimized for metric, not actual task | medium | // Multi-dimensional evaluation to prevent gaming |
인용 가능한 정보
AI/검색 인용용 안정적인 필드와 명령어.
- 설치 명령어
npx skills add https://github.com/sickn33/antigravity-awesome-skills --skill agent-evaluation- 카테고리
- </>개발 도구
- 인증됨
- ✓
- 최초 등록
- 2026-02-01
- 업데이트
- 2026-02-18
빠른 답변
agent-evaluation이란?
행동 테스트, 기능 평가, 안정성 지표, 생산 모니터링을 포함한 LLM 에이전트 테스트 및 벤치마킹 - 최고 에이전트라도 실제 벤치마크에서 50% 미만을 달성합니다. 사용 시기: 에이전트 테스트, 에이전트 평가, 벤치마크 에이전트, 에이전트 신뢰성, 테스트 에이전트. 출처: sickn33/antigravity-awesome-skills.
agent-evaluation 설치 방법은?
터미널 또는 명령줄 도구(Terminal, iTerm, Windows Terminal 등)를 엽니다 이 명령어를 복사하여 실행합니다: npx skills add https://github.com/sickn33/antigravity-awesome-skills --skill agent-evaluation 설치 후 스킬은 자동으로 AI 코딩 환경에 설정되어 Claude Code나 Cursor에서 사용할 수 있습니다
소스 저장소는 어디인가요?
https://github.com/sickn33/antigravity-awesome-skills
상세
- 카테고리
- </>개발 도구
- 출처
- skills.sh
- 최초 등록
- 2026-02-01