Qu'est-ce que validate-evaluator ?
Calibrez un juge LLM par rapport à des étiquettes humaines à l’aide de divisions de données, de TPR/TNR et de correction de biais. À utiliser après avoir écrit une invite de juge (write-judge-prompt) lorsque vous devez vérifier l'alignement avant de faire confiance à ses sorties. Ne PAS utiliser pour les évaluateurs basés sur le code (ceux-ci sont déterministes ; testez avec des tests unitaires standard). Source : hamelsmu/evals-skills.