·nemo-evaluator-sdk
</>

nemo-evaluator-sdk

Оценивает LLM по более чем 100 тестам из более чем 18 инструментов (MMLU, HumanEval, GSM8K, безопасность, VLM) с возможностью выполнения с несколькими серверами. Используйте, когда требуется масштабируемая оценка на локальных Docker, Slurm HPC или облачных платформах. Платформа NVIDIA корпоративного уровня с контейнерной архитектурой для воспроизводимого тестирования.

39Установки·3Тренд·@orchestra-research

Установка

$npx skills add https://github.com/orchestra-research/ai-research-skills --skill nemo-evaluator-sdk

Как установить nemo-evaluator-sdk

Быстро установите AI-навык nemo-evaluator-sdk в вашу среду разработки через командную строку

  1. Откройте терминал: Откройте терминал или инструмент командной строки (Terminal, iTerm, Windows Terminal и т.д.)
  2. Выполните команду установки: Скопируйте и выполните эту команду: npx skills add https://github.com/orchestra-research/ai-research-skills --skill nemo-evaluator-sdk
  3. Проверьте установку: После установки навык будет автоматически настроен в вашей AI-среде разработки и готов к использованию в Claude Code, Cursor или OpenClaw

Источник: orchestra-research/ai-research-skills.

NeMo Evaluator SDK evaluates LLMs across 100+ benchmarks from 18+ harnesses using containerized, reproducible evaluation with multi-backend execution (local Docker, Slurm HPC, Lepton cloud).

Run core academic benchmarks (MMLU, GSM8K, IFEval) on any OpenAI-compatible endpoint.

| lm-evaluation-harness | 60+ | MMLU, GSM8K, HellaSwag, ARC | | simple-evals | 20+ | GPQA, MATH, AIME | | bigcode-evaluation-harness | 25+ | HumanEval, MBPP, MultiPL-E | | safety-harness | 3 | Aegis, WildGuard | | garak | 1 | Security probing | | vlmevalkit | 6+ | OCRBench, ChartQA, MMMU | | bfcl | 6 | Function calling v2/v3 |

Оценивает LLM по более чем 100 тестам из более чем 18 инструментов (MMLU, HumanEval, GSM8K, безопасность, VLM) с возможностью выполнения с несколькими серверами. Используйте, когда требуется масштабируемая оценка на локальных Docker, Slurm HPC или облачных платформах. Платформа NVIDIA корпоративного уровня с контейнерной архитектурой для воспроизводимого тестирования. Источник: orchestra-research/ai-research-skills.

Факты (для цитирования)

Стабильные поля и команды для ссылок в AI/поиске.

Команда установки
npx skills add https://github.com/orchestra-research/ai-research-skills --skill nemo-evaluator-sdk
Категория
</>Разработка
Проверено
Впервые замечено
2026-02-11
Обновлено
2026-03-11

Browse more skills from orchestra-research/ai-research-skills

Короткие ответы

Что такое nemo-evaluator-sdk?

Оценивает LLM по более чем 100 тестам из более чем 18 инструментов (MMLU, HumanEval, GSM8K, безопасность, VLM) с возможностью выполнения с несколькими серверами. Используйте, когда требуется масштабируемая оценка на локальных Docker, Slurm HPC или облачных платформах. Платформа NVIDIA корпоративного уровня с контейнерной архитектурой для воспроизводимого тестирования. Источник: orchestra-research/ai-research-skills.

Как установить nemo-evaluator-sdk?

Откройте терминал или инструмент командной строки (Terminal, iTerm, Windows Terminal и т.д.) Скопируйте и выполните эту команду: npx skills add https://github.com/orchestra-research/ai-research-skills --skill nemo-evaluator-sdk После установки навык будет автоматически настроен в вашей AI-среде разработки и готов к использованию в Claude Code, Cursor или OpenClaw

Где находится исходный репозиторий?

https://github.com/orchestra-research/ai-research-skills

Детали

Категория
</>Разработка
Источник
skills.sh
Впервые замечено
2026-02-11