Che cos'è validate-evaluator?
Calibra un giudice LLM rispetto alle etichette umane utilizzando la suddivisione dei dati, TPR/TNR e la correzione dei bias. Da utilizzare dopo aver scritto un prompt del giudice (write-judge-prompt) quando è necessario verificare l'allineamento prima di fidarsi dei suoi output. NON utilizzare per valutatori basati su codice (quelli sono deterministici; test con test unitari standard). Fonte: hamelsmu/evals-skills.