Qu'est-ce que judge ?
Évaluez les résultats des tâches de l'agent à l'aide d'une rubrique en trois dimensions (sémantique, pragmatique, syntaxique) dérivée du cadre de qualité KLS. À utiliser lorsque : (1) une tâche est terminée et nécessite une évaluation de la qualité avant son acceptation, (2) des contrôles de qualité automatisés après la tâche sont requis, (3) des verdicts consensuels multimodèles sont nécessaires pour les sorties de l'agent, (4) la qualité de la documentation, du code ou des spécifications doit être évaluée avec des verdicts JSON structurés, ou (5) une décision de secours humaine est nécessaire après un désaccord sur le modèle. Produit des enregistrements de verdict JSONL compatibles avec le schéma de verdict dans automation/judge/. Source : terraphim/terraphim-skills.