·llm-as-a-judge
</>

llm-as-a-judge

Créez, validez et déployez des évaluateurs LLM-as-Judge pour une évaluation automatisée de la qualité des résultats du pipeline LLM. Utilisez cette compétence chaque fois que l'utilisateur souhaite : créer un évaluateur automatisé pour les modes d'échec subjectifs ou nuancés, rédiger une invite de juge pour une évaluation réussite/échec, diviser les données étiquetées pour le développement du juge, mesurer l'alignement du juge (TPR/TNR), estimer les taux de réussite réels avec correction des biais ou configurer des pipelines d'évaluation CI. Se déclenche également lorsque l'utilisateur mentionne « invite du juge », « évaluation automatisée », « évaluateur LLM », « invite de notation », « métriques d'alignement », « taux de vrais positifs » ou souhaite passer de l'examen manuel des traces à l'évaluation automatisée. Cette compétence couvre le cycle de vie complet : conception rapide → fractionnement des données → raffinement itératif → estimation du taux de réussite.

8Installations·0Tendance·@maragudk

Installation

$npx skills add https://github.com/maragudk/evals-skills --skill llm-as-a-judge

Comment installer llm-as-a-judge

Installez rapidement le skill IA llm-as-a-judge dans votre environnement de développement via la ligne de commande

  1. Ouvrir le Terminal: Ouvrez votre terminal ou outil de ligne de commande (Terminal, iTerm, Windows Terminal, etc.)
  2. Exécuter la commande d'installation: Copiez et exécutez cette commande : npx skills add https://github.com/maragudk/evals-skills --skill llm-as-a-judge
  3. Vérifier l'installation: Une fois installé, le skill sera automatiquement configuré dans votre environnement de programmation IA et prêt à être utilisé dans Claude Code, Cursor ou OpenClaw

Source : maragudk/evals-skills.

Build reliable automated evaluators that use an LLM to judge the outputs of another LLM pipeline. Each judge targets a single, binary (Pass/Fail) failure mode identified during error analysis.

Use code-based evaluators when the failure is objective and deterministic:

Each failure mode gets its own dedicated evaluator. Never combine multiple criteria into a single judge prompt—this introduces ambiguity and makes diagnosis harder.

Créez, validez et déployez des évaluateurs LLM-as-Judge pour une évaluation automatisée de la qualité des résultats du pipeline LLM. Utilisez cette compétence chaque fois que l'utilisateur souhaite : créer un évaluateur automatisé pour les modes d'échec subjectifs ou nuancés, rédiger une invite de juge pour une évaluation réussite/échec, diviser les données étiquetées pour le développement du juge, mesurer l'alignement du juge (TPR/TNR), estimer les taux de réussite réels avec correction des biais ou configurer des pipelines d'évaluation CI. Se déclenche également lorsque l'utilisateur mentionne « invite du juge », « évaluation automatisée », « évaluateur LLM », « invite de notation », « métriques d'alignement », « taux de vrais positifs » ou souhaite passer de l'examen manuel des traces à l'évaluation automatisée. Cette compétence couvre le cycle de vie complet : conception rapide → fractionnement des données → raffinement itératif → estimation du taux de réussite. Source : maragudk/evals-skills.

Faits (prêts à citer)

Champs et commandes stables pour les citations IA/recherche.

Commande d'installation
npx skills add https://github.com/maragudk/evals-skills --skill llm-as-a-judge
Catégorie
</>Développement
Vérifié
Première apparition
2026-02-22
Mis à jour
2026-03-11

Browse more skills from maragudk/evals-skills

Réponses rapides

Qu'est-ce que llm-as-a-judge ?

Créez, validez et déployez des évaluateurs LLM-as-Judge pour une évaluation automatisée de la qualité des résultats du pipeline LLM. Utilisez cette compétence chaque fois que l'utilisateur souhaite : créer un évaluateur automatisé pour les modes d'échec subjectifs ou nuancés, rédiger une invite de juge pour une évaluation réussite/échec, diviser les données étiquetées pour le développement du juge, mesurer l'alignement du juge (TPR/TNR), estimer les taux de réussite réels avec correction des biais ou configurer des pipelines d'évaluation CI. Se déclenche également lorsque l'utilisateur mentionne « invite du juge », « évaluation automatisée », « évaluateur LLM », « invite de notation », « métriques d'alignement », « taux de vrais positifs » ou souhaite passer de l'examen manuel des traces à l'évaluation automatisée. Cette compétence couvre le cycle de vie complet : conception rapide → fractionnement des données → raffinement itératif → estimation du taux de réussite. Source : maragudk/evals-skills.

Comment installer llm-as-a-judge ?

Ouvrez votre terminal ou outil de ligne de commande (Terminal, iTerm, Windows Terminal, etc.) Copiez et exécutez cette commande : npx skills add https://github.com/maragudk/evals-skills --skill llm-as-a-judge Une fois installé, le skill sera automatiquement configuré dans votre environnement de programmation IA et prêt à être utilisé dans Claude Code, Cursor ou OpenClaw

Où se trouve le dépôt source ?

https://github.com/maragudk/evals-skills

Détails

Catégorie
</>Développement
Source
skills.sh
Première apparition
2026-02-22