Was ist judge?
Bewerten Sie die Aufgabenausgaben von Agenten mithilfe einer dreidimensionalen Rubrik (semantisch, pragmatisch, syntaktisch), die aus dem KLS-Qualitätsrahmen abgeleitet ist. Verwenden Sie dies, wenn: (1) eine Aufgabe abgeschlossen wurde und vor der Annahme eine Qualitätsbewertung erfordert, (2) automatisierte Qualitätsprüfungen nach der Aufgabe erforderlich sind, (3) Konsensurteile für mehrere Modelle für Agentenausgaben erforderlich sind, (4) die Dokumentations-, Code- oder Spezifikationsqualität mit strukturierten JSON-Urteilen bewertet werden muss oder (5) nach einer Modellunstimmigkeit eine menschliche Fallback-Entscheidung erforderlich ist. Erstellt JSONL-Urteilsdatensätze, die mit dem Urteilsschema in „automation/judge/“ kompatibel sind. Quelle: terraphim/terraphim-skills.