¿Qué es validate-evaluator?
Calibre un juez de LLM frente a etiquetas humanas mediante divisiones de datos, TPR/TNR y corrección de sesgos. Úselo después de escribir un mensaje de juez (write-judge-prompt) cuando necesite verificar la alineación antes de confiar en sus resultados. NO lo use para evaluadores basados en código (esos son deterministas; pruebe con pruebas unitarias estándar). Fuente: hamelsmu/evals-skills.