Qu'est-ce que llm-as-a-judge ?
Créez, validez et déployez des évaluateurs LLM-as-Judge pour une évaluation automatisée de la qualité des résultats du pipeline LLM. Utilisez cette compétence chaque fois que l'utilisateur souhaite : créer un évaluateur automatisé pour les modes d'échec subjectifs ou nuancés, rédiger une invite de juge pour une évaluation réussite/échec, diviser les données étiquetées pour le développement du juge, mesurer l'alignement du juge (TPR/TNR), estimer les taux de réussite réels avec correction des biais ou configurer des pipelines d'évaluation CI. Se déclenche également lorsque l'utilisateur mentionne « invite du juge », « évaluation automatisée », « évaluateur LLM », « invite de notation », « métriques d'alignement », « taux de vrais positifs » ou souhaite passer de l'examen manuel des traces à l'évaluation automatisée. Cette compétence couvre le cycle de vie complet : conception rapide → fractionnement des données → raffinement itératif → estimation du taux de réussite. Source : maragudk/evals-skills.