·validate-evaluator
{}

validate-evaluator

데이터 분할, TPR/TNR 및 편향 수정을 사용하여 인간 라벨에 대해 LLM 심사위원을 보정합니다. 출력을 신뢰하기 전에 정렬을 확인해야 하는 경우 판단 프롬프트(write-judge-prompt)를 작성한 후 사용하세요. 코드 기반 평가자에는 사용하지 마십시오(결정적이므로 표준 단위 테스트로 테스트).

74설치·3트렌드·@hamelsmu

설치

$npx skills add https://github.com/hamelsmu/evals-skills --skill validate-evaluator

validate-evaluator 설치 방법

명령줄에서 validate-evaluator AI 스킬을 개발 환경에 빠르게 설치

  1. 터미널 열기: 터미널 또는 명령줄 도구(Terminal, iTerm, Windows Terminal 등)를 엽니다
  2. 설치 명령어 실행: 이 명령어를 복사하여 실행합니다: npx skills add https://github.com/hamelsmu/evals-skills --skill validate-evaluator
  3. 설치 확인: 설치 후 스킬은 자동으로 AI 코딩 환경에 설정되어 Claude Code, Cursor, OpenClaw에서 사용할 수 있습니다

출처: hamelsmu/evals-skills.

| Training | 10-20% (10-20 examples) | Source of few-shot examples for the judge prompt | Only clear-cut Pass and Fail cases. Used directly in the prompt. | | Dev | 40-45% (40-45 examples) | Iterative evaluator refinement | Never include in the prompt. Evaluate against repeatedly. |

| Test | 40-45% (40-45 examples) | Final unbiased accuracy measurement | Do NOT look at during development. Used once at the end. |

Target: 30-50 examples of each class (Pass and Fail) across dev and test combined. Use balanced splits even if real-world prevalence is skewed — you need enough Fail examples to measure TNR reliably.

데이터 분할, TPR/TNR 및 편향 수정을 사용하여 인간 라벨에 대해 LLM 심사위원을 보정합니다. 출력을 신뢰하기 전에 정렬을 확인해야 하는 경우 판단 프롬프트(write-judge-prompt)를 작성한 후 사용하세요. 코드 기반 평가자에는 사용하지 마십시오(결정적이므로 표준 단위 테스트로 테스트). 출처: hamelsmu/evals-skills.

인용 가능한 정보

AI/검색 인용용 안정적인 필드와 명령어.

설치 명령어
npx skills add https://github.com/hamelsmu/evals-skills --skill validate-evaluator
카테고리
{}데이터 분석
인증됨
최초 등록
2026-03-04
업데이트
2026-03-10

Browse more skills from hamelsmu/evals-skills

빠른 답변

validate-evaluator이란?

데이터 분할, TPR/TNR 및 편향 수정을 사용하여 인간 라벨에 대해 LLM 심사위원을 보정합니다. 출력을 신뢰하기 전에 정렬을 확인해야 하는 경우 판단 프롬프트(write-judge-prompt)를 작성한 후 사용하세요. 코드 기반 평가자에는 사용하지 마십시오(결정적이므로 표준 단위 테스트로 테스트). 출처: hamelsmu/evals-skills.

validate-evaluator 설치 방법은?

터미널 또는 명령줄 도구(Terminal, iTerm, Windows Terminal 등)를 엽니다 이 명령어를 복사하여 실행합니다: npx skills add https://github.com/hamelsmu/evals-skills --skill validate-evaluator 설치 후 스킬은 자동으로 AI 코딩 환경에 설정되어 Claude Code, Cursor, OpenClaw에서 사용할 수 있습니다

소스 저장소는 어디인가요?

https://github.com/hamelsmu/evals-skills