Was ist validate-evaluator?
Kalibrieren Sie einen LLM-Richter anhand menschlicher Etiketten mithilfe von Datenaufteilungen, TPR/TNR und Bias-Korrektur. Verwenden Sie diese Option nach dem Schreiben einer Judge-Eingabeaufforderung (write-judge-prompt), wenn Sie die Ausrichtung überprüfen müssen, bevor Sie deren Ausgaben vertrauen. NICHT für codebasierte Evaluatoren verwenden (diese sind deterministisch; testen Sie mit Standard-Unit-Tests). Quelle: hamelsmu/evals-skills.