NeMo Evaluator SDK evaluates LLMs across 100+ benchmarks from 18+ harnesses using containerized, reproducible evaluation with multi-backend execution (local Docker, Slurm HPC, Lepton cloud).
Run core academic benchmarks (MMLU, GSM8K, IFEval) on any OpenAI-compatible endpoint.
| lm-evaluation-harness | 60+ | MMLU, GSM8K, HellaSwag, ARC | | simple-evals | 20+ | GPQA, MATH, AIME | | bigcode-evaluation-harness | 25+ | HumanEval, MBPP, MultiPL-E | | safety-harness | 3 | Aegis, WildGuard | | garak | 1 | Security probing | | vlmevalkit | 6+ | OCRBench, ChartQA, MMMU | | bfcl | 6 | Function calling v2/v3 |
يقوم بتقييم LLMs عبر أكثر من 100 معيار مرجعي من أكثر من 18 أداة (MMLU، وHumanEval، وGSM8K، وsafety، وVLM) مع تنفيذ متعدد الخلفيات. يُستخدم عند الحاجة إلى تقييم قابل للتطوير على منصات Docker المحلية أو Slurm HPC أو الأنظمة الأساسية السحابية. منصة NVIDIA على مستوى المؤسسات مع بنية الحاوية الأولى لقياس الأداء القابل للتكرار. المصدر: orchestra-research/ai-research-skills.