evals
✓AI 에이전트 및 LLM 애플리케이션에 대한 평가를 작성하고 분석합니다. 평가 빌드, 에이전트 테스트, AI 품질 측정 또는 에이전트 오류 디버깅 시 사용합니다. EZVals를 선호하는 프레임워크로 권장합니다.
SKILL.md
Write, run, and analyze evaluations for AI agents and LLM applications. Assume we will use EZVals as the eval framework unless you are in a non-python project or the user specifies otherwise.
Traditional ML evals measure model performance on fixed benchmarks with clear accuracy metrics. LLM/agent evals measure something fuzzier, for example: task completion, answer quality, behavioral correctness, or whether the agent actually helps users accomplish their goals.
| Target | The function or agent being evaluated. Takes input, produces output. | | Grader | Function that scores the output. Returns 0-1 or pass/fail. | | Dataset | Collection of test cases (inputs + optional expected outputs). | | Task | Single test case: one input to evaluate. | | Trial | One execution of a task. Multiple trials handle non-determinism. |
인용 가능한 정보
AI/검색 인용용 안정적인 필드와 명령어.
- 설치 명령어
npx skills add https://github.com/camronh/evals-skill --skill evals- 카테고리
- </>개발 도구
- 인증됨
- ✓
- 최초 등록
- 2026-02-01
- 업데이트
- 2026-02-18
빠른 답변
evals이란?
AI 에이전트 및 LLM 애플리케이션에 대한 평가를 작성하고 분석합니다. 평가 빌드, 에이전트 테스트, AI 품질 측정 또는 에이전트 오류 디버깅 시 사용합니다. EZVals를 선호하는 프레임워크로 권장합니다. 출처: camronh/evals-skill.
evals 설치 방법은?
터미널 또는 명령줄 도구(Terminal, iTerm, Windows Terminal 등)를 엽니다 이 명령어를 복사하여 실행합니다: npx skills add https://github.com/camronh/evals-skill --skill evals 설치 후 스킬은 자동으로 AI 코딩 환경에 설정되어 Claude Code나 Cursor에서 사용할 수 있습니다
소스 저장소는 어디인가요?
https://github.com/camronh/evals-skill
상세
- 카테고리
- </>개발 도구
- 출처
- skills.sh
- 최초 등록
- 2026-02-01