nemo-evaluator-sdk
✓Evalúa LLM en más de 100 puntos de referencia de más de 18 arneses (MMLU, HumanEval, GSM8K, seguridad, VLM) con ejecución de múltiples backends. Úselo cuando necesite una evaluación escalable en Docker local, Slurm HPC o plataformas en la nube. La plataforma de nivel empresarial de NVIDIA con arquitectura basada en contenedores para realizar evaluaciones comparativas reproducibles.
SKILL.md
NeMo Evaluator SDK evaluates LLMs across 100+ benchmarks from 18+ harnesses using containerized, reproducible evaluation with multi-backend execution (local Docker, Slurm HPC, Lepton cloud).
Run core academic benchmarks (MMLU, GSM8K, IFEval) on any OpenAI-compatible endpoint.
| lm-evaluation-harness | 60+ | MMLU, GSM8K, HellaSwag, ARC | | simple-evals | 20+ | GPQA, MATH, AIME | | bigcode-evaluation-harness | 25+ | HumanEval, MBPP, MultiPL-E | | safety-harness | 3 | Aegis, WildGuard | | garak | 1 | Security probing | | vlmevalkit | 6+ | OCRBench, ChartQA, MMMU | | bfcl | 6 | Function calling v2/v3 |
Evalúa LLM en más de 100 puntos de referencia de más de 18 arneses (MMLU, HumanEval, GSM8K, seguridad, VLM) con ejecución de múltiples backends. Úselo cuando necesite una evaluación escalable en Docker local, Slurm HPC o plataformas en la nube. La plataforma de nivel empresarial de NVIDIA con arquitectura basada en contenedores para realizar evaluaciones comparativas reproducibles. Fuente: orchestra-research/ai-research-skills.
Datos (listos para citar)
Campos y comandos estables para citas de IA/búsqueda.
- Comando de instalación
npx skills add https://github.com/orchestra-research/ai-research-skills --skill nemo-evaluator-sdk- Categoría
- </>Desarrollo
- Verificado
- ✓
- Primera vez visto
- 2026-02-11
- Actualizado
- 2026-02-18
Respuestas rápidas
¿Qué es nemo-evaluator-sdk?
Evalúa LLM en más de 100 puntos de referencia de más de 18 arneses (MMLU, HumanEval, GSM8K, seguridad, VLM) con ejecución de múltiples backends. Úselo cuando necesite una evaluación escalable en Docker local, Slurm HPC o plataformas en la nube. La plataforma de nivel empresarial de NVIDIA con arquitectura basada en contenedores para realizar evaluaciones comparativas reproducibles. Fuente: orchestra-research/ai-research-skills.
¿Cómo instalo nemo-evaluator-sdk?
Abre tu terminal o herramienta de línea de comandos (Terminal, iTerm, Windows Terminal, etc.) Copia y ejecuta este comando: npx skills add https://github.com/orchestra-research/ai-research-skills --skill nemo-evaluator-sdk Una vez instalado, el skill se configurará automáticamente en tu entorno de programación con IA y estará listo para usar en Claude Code o Cursor
¿Dónde está el repositorio de origen?
https://github.com/orchestra-research/ai-research-skills
Detalles
- Categoría
- </>Desarrollo
- Fuente
- skills.sh
- Primera vez visto
- 2026-02-11