·llm-as-a-judge
</>

llm-as-a-judge

LLM 파이프라인 결과의 자동화된 품질 평가를 위한 LLM-판단 평가자를 구축, 검증 및 배포합니다. 사용자가 원할 때마다 이 기술을 사용하십시오. 주관적이거나 미묘한 실패 모드에 대한 자동화된 평가기 생성, 합격/실패 평가를 위한 심사 위원 프롬프트 작성, 심사 위원 개발을 위해 레이블이 지정된 데이터 분할, 심사 위원 정렬(TPR/TNR) 측정, 편향 수정을 통한 실제 성공률 추정, CI 평가 파이프라인 설정. 또한 사용자가 "판단 프롬프트", "자동 평가", "LLM 평가자", "채점 프롬프트", "정렬 지표", "참 긍정률"을 언급하거나 수동 추적 검토에서 자동 평가로 전환하려는 경우에도 트리거됩니다. 이 기술은 신속한 설계 → 데이터 분할 → 반복적 개선 → 성공률 추정 등 전체 수명주기를 포괄합니다.

8설치·0트렌드·@maragudk

설치

$npx skills add https://github.com/maragudk/evals-skills --skill llm-as-a-judge

llm-as-a-judge 설치 방법

명령줄에서 llm-as-a-judge AI 스킬을 개발 환경에 빠르게 설치

  1. 터미널 열기: 터미널 또는 명령줄 도구(Terminal, iTerm, Windows Terminal 등)를 엽니다
  2. 설치 명령어 실행: 이 명령어를 복사하여 실행합니다: npx skills add https://github.com/maragudk/evals-skills --skill llm-as-a-judge
  3. 설치 확인: 설치 후 스킬은 자동으로 AI 코딩 환경에 설정되어 Claude Code, Cursor, OpenClaw에서 사용할 수 있습니다

출처: maragudk/evals-skills.

Build reliable automated evaluators that use an LLM to judge the outputs of another LLM pipeline. Each judge targets a single, binary (Pass/Fail) failure mode identified during error analysis.

Use code-based evaluators when the failure is objective and deterministic:

Each failure mode gets its own dedicated evaluator. Never combine multiple criteria into a single judge prompt—this introduces ambiguity and makes diagnosis harder.

LLM 파이프라인 결과의 자동화된 품질 평가를 위한 LLM-판단 평가자를 구축, 검증 및 배포합니다. 사용자가 원할 때마다 이 기술을 사용하십시오. 주관적이거나 미묘한 실패 모드에 대한 자동화된 평가기 생성, 합격/실패 평가를 위한 심사 위원 프롬프트 작성, 심사 위원 개발을 위해 레이블이 지정된 데이터 분할, 심사 위원 정렬(TPR/TNR) 측정, 편향 수정을 통한 실제 성공률 추정, CI 평가 파이프라인 설정. 또한 사용자가 "판단 프롬프트", "자동 평가", "LLM 평가자", "채점 프롬프트", "정렬 지표", "참 긍정률"을 언급하거나 수동 추적 검토에서 자동 평가로 전환하려는 경우에도 트리거됩니다. 이 기술은 신속한 설계 → 데이터 분할 → 반복적 개선 → 성공률 추정 등 전체 수명주기를 포괄합니다. 출처: maragudk/evals-skills.

인용 가능한 정보

AI/검색 인용용 안정적인 필드와 명령어.

설치 명령어
npx skills add https://github.com/maragudk/evals-skills --skill llm-as-a-judge
카테고리
</>개발 도구
인증됨
최초 등록
2026-02-22
업데이트
2026-03-10

Browse more skills from maragudk/evals-skills

빠른 답변

llm-as-a-judge이란?

LLM 파이프라인 결과의 자동화된 품질 평가를 위한 LLM-판단 평가자를 구축, 검증 및 배포합니다. 사용자가 원할 때마다 이 기술을 사용하십시오. 주관적이거나 미묘한 실패 모드에 대한 자동화된 평가기 생성, 합격/실패 평가를 위한 심사 위원 프롬프트 작성, 심사 위원 개발을 위해 레이블이 지정된 데이터 분할, 심사 위원 정렬(TPR/TNR) 측정, 편향 수정을 통한 실제 성공률 추정, CI 평가 파이프라인 설정. 또한 사용자가 "판단 프롬프트", "자동 평가", "LLM 평가자", "채점 프롬프트", "정렬 지표", "참 긍정률"을 언급하거나 수동 추적 검토에서 자동 평가로 전환하려는 경우에도 트리거됩니다. 이 기술은 신속한 설계 → 데이터 분할 → 반복적 개선 → 성공률 추정 등 전체 수명주기를 포괄합니다. 출처: maragudk/evals-skills.

llm-as-a-judge 설치 방법은?

터미널 또는 명령줄 도구(Terminal, iTerm, Windows Terminal 등)를 엽니다 이 명령어를 복사하여 실행합니다: npx skills add https://github.com/maragudk/evals-skills --skill llm-as-a-judge 설치 후 스킬은 자동으로 AI 코딩 환경에 설정되어 Claude Code, Cursor, OpenClaw에서 사용할 수 있습니다

소스 저장소는 어디인가요?

https://github.com/maragudk/evals-skills

상세

카테고리
</>개발 도구
출처
skills.sh
최초 등록
2026-02-22