Evaluate agent task outputs against a three-dimension rubric and produce structured verdict records. The judge operates as a quality gate at the task completion boundary, scoring outputs on Semantic accuracy, Pragmatic usefulness, and Syntactic consistency.
The rubric reuses three dimensions from the KLS (Krogstie-Lindland-Sindre) quality framework defined in disciplined-quality-evaluation:
| Semantic | Does it accurately represent the domain? | Factual correctness, domain terminology, no contradictions | | Pragmatic | Does it enable the intended decisions/actions? | Actionable, useful, addresses the task goal | | Syntactic | Is it internally consistent and well-structured? | Format compliance, structural completeness, no broken references |
KLS 품질 프레임워크에서 파생된 3차원 루브릭(의미론, 실용주의, 구문론)을 사용하여 상담원 작업 결과를 평가합니다. (1) 작업이 완료되었고 수락 전에 품질 평가가 필요한 경우, (2) 자동화된 작업 후 품질 확인이 필요한 경우, (3) 에이전트 출력에 다중 모델 합의 판정이 필요한 경우, (4) 구조화된 JSON 판정으로 문서화, 코드 또는 사양 품질의 점수를 매겨야 하는 경우, 또는 (5) 모델 불일치 후 사람의 대체 결정이 필요한 경우. Automation/judge/의 판정 스키마와 호환되는 JSONL 판정 레코드를 생성합니다. 출처: terraphim/terraphim-skills.