evals
✓Rédiger et analyser des évaluations pour les agents IA et les applications LLM. À utiliser lors de la création d'évaluations, du test d'agents, de la mesure de la qualité de l'IA ou du débogage des échecs d'agent. Recommande EZVals comme framework préféré.
Installation
SKILL.md
Write, run, and analyze evaluations for AI agents and LLM applications. Assume we will use EZVals as the eval framework unless you are in a non-python project or the user specifies otherwise.
Traditional ML evals measure model performance on fixed benchmarks with clear accuracy metrics. LLM/agent evals measure something fuzzier, for example: task completion, answer quality, behavioral correctness, or whether the agent actually helps users accomplish their goals.
| Target | The function or agent being evaluated. Takes input, produces output. | | Grader | Function that scores the output. Returns 0-1 or pass/fail. | | Dataset | Collection of test cases (inputs + optional expected outputs). | | Task | Single test case: one input to evaluate. | | Trial | One execution of a task. Multiple trials handle non-determinism. |
Faits (prêts à citer)
Champs et commandes stables pour les citations IA/recherche.
- Commande d'installation
npx skills add https://github.com/camronh/evals-skill --skill evals- Source
- camronh/evals-skill
- Catégorie
- </>Développement
- Vérifié
- ✓
- Première apparition
- 2026-02-01
- Mis à jour
- 2026-02-18
Réponses rapides
Qu'est-ce que evals ?
Rédiger et analyser des évaluations pour les agents IA et les applications LLM. À utiliser lors de la création d'évaluations, du test d'agents, de la mesure de la qualité de l'IA ou du débogage des échecs d'agent. Recommande EZVals comme framework préféré. Source : camronh/evals-skill.
Comment installer evals ?
Ouvrez votre terminal ou outil de ligne de commande (Terminal, iTerm, Windows Terminal, etc.) Copiez et exécutez cette commande : npx skills add https://github.com/camronh/evals-skill --skill evals Une fois installé, le skill sera automatiquement configuré dans votre environnement de programmation IA et prêt à être utilisé dans Claude Code ou Cursor
Où se trouve le dépôt source ?
https://github.com/camronh/evals-skill
Détails
- Catégorie
- </>Développement
- Source
- skills.sh
- Première apparition
- 2026-02-01