Evaluate agent task outputs against a three-dimension rubric and produce structured verdict records. The judge operates as a quality gate at the task completion boundary, scoring outputs on Semantic accuracy, Pragmatic usefulness, and Syntactic consistency.
The rubric reuses three dimensions from the KLS (Krogstie-Lindland-Sindre) quality framework defined in disciplined-quality-evaluation:
| Semantic | Does it accurately represent the domain? | Factual correctness, domain terminology, no contradictions | | Pragmatic | Does it enable the intended decisions/actions? | Actionable, useful, addresses the task goal | | Syntactic | Is it internally consistent and well-structured? | Format compliance, structural completeness, no broken references |
Оценивайте результаты задач агента, используя трехмерную рубрику (семантическая, прагматическая, синтаксическая), полученную на основе системы качества KLS. Используйте, когда: (1) задача завершена и требует оценки качества перед принятием, (2) требуются автоматические проверки качества после выполнения задачи, (3) для выходных данных агента необходимы консенсусные вердикты нескольких моделей, (4) качество документации, кода или спецификации должно оцениваться с помощью структурированных вердиктов JSON или (5) после разногласий с моделью необходимо принять резервное решение человеком. Создает записи вердиктов JSONL, совместимые со схемой вердиктов в Automation/Judge/. Источник: terraphim/terraphim-skills.