evaluating-llms
✓Évaluez les systèmes LLM à l'aide de métriques automatisées, de LLM en tant que juge et de références. À utiliser pour tester la qualité rapide, valider les pipelines RAG, mesurer la sécurité (hallucinations, biais) ou comparer des modèles pour le déploiement en production.
Installation
SKILL.md
Evaluate Large Language Model (LLM) systems using automated metrics, LLM-as-judge patterns, and standardized benchmarks to ensure production quality and safety.
| Task Type | Primary Approach | Metrics | Tools |
| Classification (sentiment, intent) | Automated metrics | Accuracy, Precision, Recall, F1 | scikit-learn | | Generation (summaries, creative text) | LLM-as-judge + automated | BLEU, ROUGE, BERTScore, Quality rubric | GPT-4/Claude for judging | | Question Answering | Exact match + semantic similarity | EM, F1, Cosine similarity | Custom evaluators |
Évaluez les systèmes LLM à l'aide de métriques automatisées, de LLM en tant que juge et de références. À utiliser pour tester la qualité rapide, valider les pipelines RAG, mesurer la sécurité (hallucinations, biais) ou comparer des modèles pour le déploiement en production. Source : ancoleman/ai-design-components.
Faits (prêts à citer)
Champs et commandes stables pour les citations IA/recherche.
- Commande d'installation
npx skills add https://github.com/ancoleman/ai-design-components --skill evaluating-llms- Catégorie
- </>Développement
- Vérifié
- ✓
- Première apparition
- 2026-02-01
- Mis à jour
- 2026-02-18
Réponses rapides
Qu'est-ce que evaluating-llms ?
Évaluez les systèmes LLM à l'aide de métriques automatisées, de LLM en tant que juge et de références. À utiliser pour tester la qualité rapide, valider les pipelines RAG, mesurer la sécurité (hallucinations, biais) ou comparer des modèles pour le déploiement en production. Source : ancoleman/ai-design-components.
Comment installer evaluating-llms ?
Ouvrez votre terminal ou outil de ligne de commande (Terminal, iTerm, Windows Terminal, etc.) Copiez et exécutez cette commande : npx skills add https://github.com/ancoleman/ai-design-components --skill evaluating-llms Une fois installé, le skill sera automatiquement configuré dans votre environnement de programmation IA et prêt à être utilisé dans Claude Code ou Cursor
Où se trouve le dépôt source ?
https://github.com/ancoleman/ai-design-components
Détails
- Catégorie
- </>Développement
- Source
- skills.sh
- Première apparition
- 2026-02-01