llm-as-a-judge이란?
LLM 파이프라인 결과의 자동화된 품질 평가를 위한 LLM-판단 평가자를 구축, 검증 및 배포합니다. 사용자가 원할 때마다 이 기술을 사용하십시오. 주관적이거나 미묘한 실패 모드에 대한 자동화된 평가기 생성, 합격/실패 평가를 위한 심사 위원 프롬프트 작성, 심사 위원 개발을 위해 레이블이 지정된 데이터 분할, 심사 위원 정렬(TPR/TNR) 측정, 편향 수정을 통한 실제 성공률 추정, CI 평가 파이프라인 설정. 또한 사용자가 "판단 프롬프트", "자동 평가", "LLM 평가자", "채점 프롬프트", "정렬 지표", "참 긍정률"을 언급하거나 수동 추적 검토에서 자동 평가로 전환하려는 경우에도 트리거됩니다. 이 기술은 신속한 설계 → 데이터 분할 → 반복적 개선 → 성공률 추정 등 전체 수명주기를 포괄합니다. 출처: maragudk/evals-skills.