Что такое validate-evaluator?
Откалибруйте судью LLM по человеческим меткам, используя разделение данных, TPR/TNR и коррекцию смещения. Используйте после написания подсказки судьи (write-judge-prompt), когда вам нужно проверить выравнивание, прежде чем доверять его выводам. НЕ используйте для оценщиков на основе кода (они детерминированы; тестируйте с помощью стандартных модульных тестов). Источник: hamelsmu/evals-skills.