·nemo-evaluator
</>

nemo-evaluator

eyadsibai/ltk

LLM 평가, MMLU/HumanEval/GSM8K와 같은 벤치마크 실행, 평가 파이프라인 설정 또는 "NeMo Evaluator", "LLM 벤치마킹", "모델 평가", "MMLU", "HumanEval", "GSM8K", "벤치마크 하네스"에 대해 질문할 때 사용하세요.

22설치·1트렌드·@eyadsibai

설치

$npx skills add https://github.com/eyadsibai/ltk --skill nemo-evaluator

SKILL.md

NeMo Evaluator SDK evaluates LLMs across 100+ benchmarks from 18+ harnesses using containerized, reproducible evaluation with multi-backend execution (local Docker, Slurm HPC, Lepton cloud).

| lm-evaluation-harness | 60+ | MMLU, GSM8K, HellaSwag, ARC | | simple-evals | 20+ | GPQA, MATH, AIME | | bigcode-evaluation-harness | 25+ | HumanEval, MBPP, MultiPL-E | | safety-harness | 3 | Aegis, WildGuard | | vlmevalkit | 6+ | OCRBench, ChartQA, MMMU | | bfcl | 6 | Function calling v2/v3 |

| run | Execute evaluation with config | | status | Check job status | | ls tasks | List available benchmarks | | ls runs | List all invocations | | export | Export results (mlflow/wandb/local) | | kill | Terminate running job |

원본 보기

인용 가능한 정보

AI/검색 인용용 안정적인 필드와 명령어.

설치 명령어
npx skills add https://github.com/eyadsibai/ltk --skill nemo-evaluator
카테고리
</>개발 도구
인증됨
최초 등록
2026-02-17
업데이트
2026-02-18

빠른 답변

nemo-evaluator이란?

LLM 평가, MMLU/HumanEval/GSM8K와 같은 벤치마크 실행, 평가 파이프라인 설정 또는 "NeMo Evaluator", "LLM 벤치마킹", "모델 평가", "MMLU", "HumanEval", "GSM8K", "벤치마크 하네스"에 대해 질문할 때 사용하세요. 출처: eyadsibai/ltk.

nemo-evaluator 설치 방법은?

터미널 또는 명령줄 도구(Terminal, iTerm, Windows Terminal 등)를 엽니다 이 명령어를 복사하여 실행합니다: npx skills add https://github.com/eyadsibai/ltk --skill nemo-evaluator 설치 후 스킬은 자동으로 AI 코딩 환경에 설정되어 Claude Code나 Cursor에서 사용할 수 있습니다

소스 저장소는 어디인가요?

https://github.com/eyadsibai/ltk

상세

카테고리
</>개발 도구
출처
skills.sh
최초 등록
2026-02-17