validate-evaluator이란?
데이터 분할, TPR/TNR 및 편향 수정을 사용하여 인간 라벨에 대해 LLM 심사위원을 보정합니다. 출력을 신뢰하기 전에 정렬을 확인해야 하는 경우 판단 프롬프트(write-judge-prompt)를 작성한 후 사용하세요. 코드 기반 평가자에는 사용하지 마십시오(결정적이므로 표준 단위 테스트로 테스트). 출처: hamelsmu/evals-skills.
데이터 분할, TPR/TNR 및 편향 수정을 사용하여 인간 라벨에 대해 LLM 심사위원을 보정합니다. 출력을 신뢰하기 전에 정렬을 확인해야 하는 경우 판단 프롬프트(write-judge-prompt)를 작성한 후 사용하세요. 코드 기반 평가자에는 사용하지 마십시오(결정적이므로 표준 단위 테스트로 테스트).
명령줄에서 validate-evaluator AI 스킬을 개발 환경에 빠르게 설치
출처: hamelsmu/evals-skills.
| Training | 10-20% (10-20 examples) | Source of few-shot examples for the judge prompt | Only clear-cut Pass and Fail cases. Used directly in the prompt. | | Dev | 40-45% (40-45 examples) | Iterative evaluator refinement | Never include in the prompt. Evaluate against repeatedly. |
| Test | 40-45% (40-45 examples) | Final unbiased accuracy measurement | Do NOT look at during development. Used once at the end. |
Target: 30-50 examples of each class (Pass and Fail) across dev and test combined. Use balanced splits even if real-world prevalence is skewed — you need enough Fail examples to measure TNR reliably.
데이터 분할, TPR/TNR 및 편향 수정을 사용하여 인간 라벨에 대해 LLM 심사위원을 보정합니다. 출력을 신뢰하기 전에 정렬을 확인해야 하는 경우 판단 프롬프트(write-judge-prompt)를 작성한 후 사용하세요. 코드 기반 평가자에는 사용하지 마십시오(결정적이므로 표준 단위 테스트로 테스트). 출처: hamelsmu/evals-skills.
AI/검색 인용용 안정적인 필드와 명령어.
npx skills add https://github.com/hamelsmu/evals-skills --skill validate-evaluator데이터 분할, TPR/TNR 및 편향 수정을 사용하여 인간 라벨에 대해 LLM 심사위원을 보정합니다. 출력을 신뢰하기 전에 정렬을 확인해야 하는 경우 판단 프롬프트(write-judge-prompt)를 작성한 후 사용하세요. 코드 기반 평가자에는 사용하지 마십시오(결정적이므로 표준 단위 테스트로 테스트). 출처: hamelsmu/evals-skills.
터미널 또는 명령줄 도구(Terminal, iTerm, Windows Terminal 등)를 엽니다 이 명령어를 복사하여 실행합니다: npx skills add https://github.com/hamelsmu/evals-skills --skill validate-evaluator 설치 후 스킬은 자동으로 AI 코딩 환경에 설정되어 Claude Code, Cursor, OpenClaw에서 사용할 수 있습니다
https://github.com/hamelsmu/evals-skills