Что такое llm-as-a-judge?
Создавайте, проверяйте и развертывайте оценщики LLM-as-Judge для автоматизированной оценки качества результатов конвейера LLM. Используйте этот навык всякий раз, когда пользователь хочет: создать автоматизированный оценщик для субъективных или тонких режимов неудач, написать подсказку для оценки для оценки «прошел/не пройден», разделить помеченные данные для разработки оценки, измерить согласованность судей (TPR/TNR), оценить истинные показатели успеха с коррекцией смещения или настроить конвейеры оценки CI. Также срабатывает, когда пользователь упоминает «подсказку судьи», «автоматическую оценку», «оценщик LLM», «подсказку об оценке», «метрики согласования», «истинный положительный рейтинг» или хочет перейти от ручного просмотра трассировки к автоматической оценке. Этот навык охватывает полный жизненный цикл: быстрое проектирование → разделение данных → итеративное уточнение → оценка степени успеха. Источник: maragudk/evals-skills.