Evaluate agent task outputs against a three-dimension rubric and produce structured verdict records. The judge operates as a quality gate at the task completion boundary, scoring outputs on Semantic accuracy, Pragmatic usefulness, and Syntactic consistency.
The rubric reuses three dimensions from the KLS (Krogstie-Lindland-Sindre) quality framework defined in disciplined-quality-evaluation:
| Semantic | Does it accurately represent the domain? | Factual correctness, domain terminology, no contradictions | | Pragmatic | Does it enable the intended decisions/actions? | Actionable, useful, addresses the task goal | | Syntactic | Is it internally consistent and well-structured? | Format compliance, structural completeness, no broken references |
KLS 品質フレームワークから派生した 3 次元ルーブリック (セマンティック、プラグマティック、シンタクティック) を使用して、エージェント タスクの出力を評価します。次の場合に使用します: (1) タスクが完了し、承認前に品質評価が必要な場合、(2) 自動化されたタスク後の品質チェックが必要な場合、(3) エージェントの出力にマルチモデルのコンセンサス判定が必要な場合、(4) ドキュメント、コード、または仕様の品質を構造化された JSON 判定でスコアリングする必要がある場合、または (5) モデルの不一致後に人間によるフォールバック決定が必要な場合。 automation/judge/ の評決スキーマと互換性のある JSONL 評決レコードを生成します。 ソース: terraphim/terraphim-skills。