·nemo-evaluator-sdk
</>

nemo-evaluator-sdk

Valuta LLM su oltre 100 benchmark da oltre 18 cablaggi (MMLU, HumanEval, GSM8K, sicurezza, VLM) con esecuzione multi-backend. Da utilizzare quando è necessaria una valutazione scalabile su Docker locale, Slurm HPC o piattaforme cloud. La piattaforma di livello aziendale di NVIDIA con architettura container-first per benchmark riproducibili.

37Installazioni·1Tendenza·@orchestra-research

Installazione

$npx skills add https://github.com/orchestra-research/ai-research-skills --skill nemo-evaluator-sdk

Come installare nemo-evaluator-sdk

Installa rapidamente la skill AI nemo-evaluator-sdk nel tuo ambiente di sviluppo tramite riga di comando

  1. Apri il terminale: Apri il tuo terminale o strumento da riga di comando (Terminal, iTerm, Windows Terminal, ecc.)
  2. Esegui il comando di installazione: Copia ed esegui questo comando: npx skills add https://github.com/orchestra-research/ai-research-skills --skill nemo-evaluator-sdk
  3. Verifica l'installazione: Dopo l'installazione, la skill verrà configurata automaticamente nel tuo ambiente AI di coding e sarà pronta all'uso in Claude Code, Cursor o OpenClaw

Fonte: orchestra-research/ai-research-skills.

NeMo Evaluator SDK evaluates LLMs across 100+ benchmarks from 18+ harnesses using containerized, reproducible evaluation with multi-backend execution (local Docker, Slurm HPC, Lepton cloud).

Run core academic benchmarks (MMLU, GSM8K, IFEval) on any OpenAI-compatible endpoint.

| lm-evaluation-harness | 60+ | MMLU, GSM8K, HellaSwag, ARC | | simple-evals | 20+ | GPQA, MATH, AIME | | bigcode-evaluation-harness | 25+ | HumanEval, MBPP, MultiPL-E | | safety-harness | 3 | Aegis, WildGuard | | garak | 1 | Security probing | | vlmevalkit | 6+ | OCRBench, ChartQA, MMMU | | bfcl | 6 | Function calling v2/v3 |

Valuta LLM su oltre 100 benchmark da oltre 18 cablaggi (MMLU, HumanEval, GSM8K, sicurezza, VLM) con esecuzione multi-backend. Da utilizzare quando è necessaria una valutazione scalabile su Docker locale, Slurm HPC o piattaforme cloud. La piattaforma di livello aziendale di NVIDIA con architettura container-first per benchmark riproducibili. Fonte: orchestra-research/ai-research-skills.

Fatti (pronti per citazione)

Campi e comandi stabili per citazioni AI/ricerca.

Comando di installazione
npx skills add https://github.com/orchestra-research/ai-research-skills --skill nemo-evaluator-sdk
Categoria
</>Sviluppo
Verificato
Prima apparizione
2026-02-11
Aggiornato
2026-03-10

Browse more skills from orchestra-research/ai-research-skills

Risposte rapide

Che cos'è nemo-evaluator-sdk?

Valuta LLM su oltre 100 benchmark da oltre 18 cablaggi (MMLU, HumanEval, GSM8K, sicurezza, VLM) con esecuzione multi-backend. Da utilizzare quando è necessaria una valutazione scalabile su Docker locale, Slurm HPC o piattaforme cloud. La piattaforma di livello aziendale di NVIDIA con architettura container-first per benchmark riproducibili. Fonte: orchestra-research/ai-research-skills.

Come installo nemo-evaluator-sdk?

Apri il tuo terminale o strumento da riga di comando (Terminal, iTerm, Windows Terminal, ecc.) Copia ed esegui questo comando: npx skills add https://github.com/orchestra-research/ai-research-skills --skill nemo-evaluator-sdk Dopo l'installazione, la skill verrà configurata automaticamente nel tuo ambiente AI di coding e sarà pronta all'uso in Claude Code, Cursor o OpenClaw

Dov'è il repository sorgente?

https://github.com/orchestra-research/ai-research-skills