·validate-evaluator
{}

validate-evaluator

Calibrez un juge LLM par rapport à des étiquettes humaines à l’aide de divisions de données, de TPR/TNR et de correction de biais. À utiliser après avoir écrit une invite de juge (write-judge-prompt) lorsque vous devez vérifier l'alignement avant de faire confiance à ses sorties. Ne PAS utiliser pour les évaluateurs basés sur le code (ceux-ci sont déterministes ; testez avec des tests unitaires standard).

74Installations·2Tendance·@hamelsmu

Installation

$npx skills add https://github.com/hamelsmu/evals-skills --skill validate-evaluator

Comment installer validate-evaluator

Installez rapidement le skill IA validate-evaluator dans votre environnement de développement via la ligne de commande

  1. Ouvrir le Terminal: Ouvrez votre terminal ou outil de ligne de commande (Terminal, iTerm, Windows Terminal, etc.)
  2. Exécuter la commande d'installation: Copiez et exécutez cette commande : npx skills add https://github.com/hamelsmu/evals-skills --skill validate-evaluator
  3. Vérifier l'installation: Une fois installé, le skill sera automatiquement configuré dans votre environnement de programmation IA et prêt à être utilisé dans Claude Code, Cursor ou OpenClaw

Source : hamelsmu/evals-skills.

| Training | 10-20% (10-20 examples) | Source of few-shot examples for the judge prompt | Only clear-cut Pass and Fail cases. Used directly in the prompt. | | Dev | 40-45% (40-45 examples) | Iterative evaluator refinement | Never include in the prompt. Evaluate against repeatedly. |

| Test | 40-45% (40-45 examples) | Final unbiased accuracy measurement | Do NOT look at during development. Used once at the end. |

Target: 30-50 examples of each class (Pass and Fail) across dev and test combined. Use balanced splits even if real-world prevalence is skewed — you need enough Fail examples to measure TNR reliably.

Calibrez un juge LLM par rapport à des étiquettes humaines à l’aide de divisions de données, de TPR/TNR et de correction de biais. À utiliser après avoir écrit une invite de juge (write-judge-prompt) lorsque vous devez vérifier l'alignement avant de faire confiance à ses sorties. Ne PAS utiliser pour les évaluateurs basés sur le code (ceux-ci sont déterministes ; testez avec des tests unitaires standard). Source : hamelsmu/evals-skills.

Faits (prêts à citer)

Champs et commandes stables pour les citations IA/recherche.

Commande d'installation
npx skills add https://github.com/hamelsmu/evals-skills --skill validate-evaluator
Catégorie
{}Analyse de Données
Vérifié
Première apparition
2026-03-04
Mis à jour
2026-03-11

Browse more skills from hamelsmu/evals-skills

Réponses rapides

Qu'est-ce que validate-evaluator ?

Calibrez un juge LLM par rapport à des étiquettes humaines à l’aide de divisions de données, de TPR/TNR et de correction de biais. À utiliser après avoir écrit une invite de juge (write-judge-prompt) lorsque vous devez vérifier l'alignement avant de faire confiance à ses sorties. Ne PAS utiliser pour les évaluateurs basés sur le code (ceux-ci sont déterministes ; testez avec des tests unitaires standard). Source : hamelsmu/evals-skills.

Comment installer validate-evaluator ?

Ouvrez votre terminal ou outil de ligne de commande (Terminal, iTerm, Windows Terminal, etc.) Copiez et exécutez cette commande : npx skills add https://github.com/hamelsmu/evals-skills --skill validate-evaluator Une fois installé, le skill sera automatiquement configuré dans votre environnement de programmation IA et prêt à être utilisé dans Claude Code, Cursor ou OpenClaw

Où se trouve le dépôt source ?

https://github.com/hamelsmu/evals-skills