·evals
</>

evals

camronh/evals-skill

AI 에이전트 및 LLM 애플리케이션에 대한 평가를 작성하고 분석합니다. 평가 빌드, 에이전트 테스트, AI 품질 측정 또는 에이전트 오류 디버깅 시 사용합니다. EZVals를 선호하는 프레임워크로 권장합니다.

3설치·0트렌드·@camronh

설치

$npx skills add https://github.com/camronh/evals-skill --skill evals

SKILL.md

Write, run, and analyze evaluations for AI agents and LLM applications. Assume we will use EZVals as the eval framework unless you are in a non-python project or the user specifies otherwise.

Traditional ML evals measure model performance on fixed benchmarks with clear accuracy metrics. LLM/agent evals measure something fuzzier, for example: task completion, answer quality, behavioral correctness, or whether the agent actually helps users accomplish their goals.

| Target | The function or agent being evaluated. Takes input, produces output. | | Grader | Function that scores the output. Returns 0-1 or pass/fail. | | Dataset | Collection of test cases (inputs + optional expected outputs). | | Task | Single test case: one input to evaluate. | | Trial | One execution of a task. Multiple trials handle non-determinism. |

원본 보기

인용 가능한 정보

AI/검색 인용용 안정적인 필드와 명령어.

설치 명령어
npx skills add https://github.com/camronh/evals-skill --skill evals
카테고리
</>개발 도구
인증됨
최초 등록
2026-02-01
업데이트
2026-02-18

빠른 답변

evals이란?

AI 에이전트 및 LLM 애플리케이션에 대한 평가를 작성하고 분석합니다. 평가 빌드, 에이전트 테스트, AI 품질 측정 또는 에이전트 오류 디버깅 시 사용합니다. EZVals를 선호하는 프레임워크로 권장합니다. 출처: camronh/evals-skill.

evals 설치 방법은?

터미널 또는 명령줄 도구(Terminal, iTerm, Windows Terminal 등)를 엽니다 이 명령어를 복사하여 실행합니다: npx skills add https://github.com/camronh/evals-skill --skill evals 설치 후 스킬은 자동으로 AI 코딩 환경에 설정되어 Claude Code나 Cursor에서 사용할 수 있습니다

소스 저장소는 어디인가요?

https://github.com/camronh/evals-skill

상세

카테고리
</>개발 도구
출처
skills.sh
최초 등록
2026-02-01

관련 Skills

없음