·nemo-evaluator-sdk
</>

nemo-evaluator-sdk

orchestra-research/ai-research-skills

멀티 백엔드 실행을 통해 18개 이상의 하네스(MMLU, HumanEval, GSM8K, 안전, VLM)의 100개 이상의 벤치마크에서 LLM을 평가합니다. 로컬 Docker, Slurm HPC 또는 클라우드 플랫폼에 대한 확장 가능한 평가가 필요할 때 사용합니다. 재현 가능한 벤치마킹을 위한 컨테이너 우선 아키텍처를 갖춘 NVIDIA의 엔터프라이즈급 플랫폼입니다.

15설치·1트렌드·@orchestra-research

설치

$npx skills add https://github.com/orchestra-research/ai-research-skills --skill nemo-evaluator-sdk

SKILL.md

NeMo Evaluator SDK evaluates LLMs across 100+ benchmarks from 18+ harnesses using containerized, reproducible evaluation with multi-backend execution (local Docker, Slurm HPC, Lepton cloud).

Run core academic benchmarks (MMLU, GSM8K, IFEval) on any OpenAI-compatible endpoint.

| lm-evaluation-harness | 60+ | MMLU, GSM8K, HellaSwag, ARC | | simple-evals | 20+ | GPQA, MATH, AIME | | bigcode-evaluation-harness | 25+ | HumanEval, MBPP, MultiPL-E | | safety-harness | 3 | Aegis, WildGuard | | garak | 1 | Security probing | | vlmevalkit | 6+ | OCRBench, ChartQA, MMMU | | bfcl | 6 | Function calling v2/v3 |

멀티 백엔드 실행을 통해 18개 이상의 하네스(MMLU, HumanEval, GSM8K, 안전, VLM)의 100개 이상의 벤치마크에서 LLM을 평가합니다. 로컬 Docker, Slurm HPC 또는 클라우드 플랫폼에 대한 확장 가능한 평가가 필요할 때 사용합니다. 재현 가능한 벤치마킹을 위한 컨테이너 우선 아키텍처를 갖춘 NVIDIA의 엔터프라이즈급 플랫폼입니다. 출처: orchestra-research/ai-research-skills.

원본 보기

인용 가능한 정보

AI/검색 인용용 안정적인 필드와 명령어.

설치 명령어
npx skills add https://github.com/orchestra-research/ai-research-skills --skill nemo-evaluator-sdk
카테고리
</>개발 도구
인증됨
최초 등록
2026-02-11
업데이트
2026-02-18

빠른 답변

nemo-evaluator-sdk이란?

멀티 백엔드 실행을 통해 18개 이상의 하네스(MMLU, HumanEval, GSM8K, 안전, VLM)의 100개 이상의 벤치마크에서 LLM을 평가합니다. 로컬 Docker, Slurm HPC 또는 클라우드 플랫폼에 대한 확장 가능한 평가가 필요할 때 사용합니다. 재현 가능한 벤치마킹을 위한 컨테이너 우선 아키텍처를 갖춘 NVIDIA의 엔터프라이즈급 플랫폼입니다. 출처: orchestra-research/ai-research-skills.

nemo-evaluator-sdk 설치 방법은?

터미널 또는 명령줄 도구(Terminal, iTerm, Windows Terminal 등)를 엽니다 이 명령어를 복사하여 실행합니다: npx skills add https://github.com/orchestra-research/ai-research-skills --skill nemo-evaluator-sdk 설치 후 스킬은 자동으로 AI 코딩 환경에 설정되어 Claude Code나 Cursor에서 사용할 수 있습니다

소스 저장소는 어디인가요?

https://github.com/orchestra-research/ai-research-skills

상세

카테고리
</>개발 도구
출처
skills.sh
최초 등록
2026-02-11