Qu'est-ce que ai-evaluation-evals ?
Créez des plans d’évaluation de l’IA avec des benchmarks, des rubriques et des workflows d’analyse des erreurs. Source : oldwinter/skills.
Créez des plans d’évaluation de l’IA avec des benchmarks, des rubriques et des workflows d’analyse des erreurs.
Installez rapidement le skill IA ai-evaluation-evals dans votre environnement de développement via la ligne de commande
Source : oldwinter/skills.
Lenny Skills Database SKILLS PLAYBOOKS GUESTS ABOUT SKILLS PLAYBOOKS GUESTS ABOUT AI & Technology 2 guests | 2 insights
AI Evaluation (Evals) AI evaluation (evals) is the emerging skill of systematically testing and measuring AI model performance. As models become products, evals become the product requirements document. This involves error analysis, creating rubrics, building benchmarks, and developing systematic tests - a critical bottleneck for AI labs and a new core competency for product builders.
1 Treat evals as your product requirements In AI products, the eval suite defines what the product should do. If you can't measure it, you can't improve it. Before building features, define how you'll evaluate success. The eval is the spec - it tells the model (and your team) exactly what 'good' looks like.
Champs et commandes stables pour les citations IA/recherche.
npx skills add https://github.com/oldwinter/skills --skill ai-evaluation-evalsCréez des plans d’évaluation de l’IA avec des benchmarks, des rubriques et des workflows d’analyse des erreurs. Source : oldwinter/skills.
Ouvrez votre terminal ou outil de ligne de commande (Terminal, iTerm, Windows Terminal, etc.) Copiez et exécutez cette commande : npx skills add https://github.com/oldwinter/skills --skill ai-evaluation-evals Une fois installé, le skill sera automatiquement configuré dans votre environnement de programmation IA et prêt à être utilisé dans Claude Code, Cursor ou OpenClaw
https://github.com/oldwinter/skills