nemo-evaluator-sdk
✓Évalue les LLM sur plus de 100 références provenant de plus de 18 harnais (MMLU, HumanEval, GSM8K, sécurité, VLM) avec une exécution multi-backend. À utiliser lorsque vous avez besoin d'une évaluation évolutive sur des plates-formes locales Docker, Slurm HPC ou cloud. Plateforme d'entreprise de NVIDIA avec une architecture axée sur les conteneurs pour des analyses comparatives reproductibles.
Installation
SKILL.md
NeMo Evaluator SDK evaluates LLMs across 100+ benchmarks from 18+ harnesses using containerized, reproducible evaluation with multi-backend execution (local Docker, Slurm HPC, Lepton cloud).
Run core academic benchmarks (MMLU, GSM8K, IFEval) on any OpenAI-compatible endpoint.
| lm-evaluation-harness | 60+ | MMLU, GSM8K, HellaSwag, ARC | | simple-evals | 20+ | GPQA, MATH, AIME | | bigcode-evaluation-harness | 25+ | HumanEval, MBPP, MultiPL-E | | safety-harness | 3 | Aegis, WildGuard | | garak | 1 | Security probing | | vlmevalkit | 6+ | OCRBench, ChartQA, MMMU | | bfcl | 6 | Function calling v2/v3 |
Évalue les LLM sur plus de 100 références provenant de plus de 18 harnais (MMLU, HumanEval, GSM8K, sécurité, VLM) avec une exécution multi-backend. À utiliser lorsque vous avez besoin d'une évaluation évolutive sur des plates-formes locales Docker, Slurm HPC ou cloud. Plateforme d'entreprise de NVIDIA avec une architecture axée sur les conteneurs pour des analyses comparatives reproductibles. Source : orchestra-research/ai-research-skills.
Faits (prêts à citer)
Champs et commandes stables pour les citations IA/recherche.
- Commande d'installation
npx skills add https://github.com/orchestra-research/ai-research-skills --skill nemo-evaluator-sdk- Catégorie
- </>Développement
- Vérifié
- ✓
- Première apparition
- 2026-02-11
- Mis à jour
- 2026-02-18
Réponses rapides
Qu'est-ce que nemo-evaluator-sdk ?
Évalue les LLM sur plus de 100 références provenant de plus de 18 harnais (MMLU, HumanEval, GSM8K, sécurité, VLM) avec une exécution multi-backend. À utiliser lorsque vous avez besoin d'une évaluation évolutive sur des plates-formes locales Docker, Slurm HPC ou cloud. Plateforme d'entreprise de NVIDIA avec une architecture axée sur les conteneurs pour des analyses comparatives reproductibles. Source : orchestra-research/ai-research-skills.
Comment installer nemo-evaluator-sdk ?
Ouvrez votre terminal ou outil de ligne de commande (Terminal, iTerm, Windows Terminal, etc.) Copiez et exécutez cette commande : npx skills add https://github.com/orchestra-research/ai-research-skills --skill nemo-evaluator-sdk Une fois installé, le skill sera automatiquement configuré dans votre environnement de programmation IA et prêt à être utilisé dans Claude Code ou Cursor
Où se trouve le dépôt source ?
https://github.com/orchestra-research/ai-research-skills
Détails
- Catégorie
- </>Développement
- Source
- skills.sh
- Première apparition
- 2026-02-11