·nemo-evaluator-sdk
</>

nemo-evaluator-sdk

يقوم بتقييم LLMs عبر أكثر من 100 معيار مرجعي من أكثر من 18 أداة (MMLU، وHumanEval، وGSM8K، وsafety، وVLM) مع تنفيذ متعدد الخلفيات. يُستخدم عند الحاجة إلى تقييم قابل للتطوير على منصات Docker المحلية أو Slurm HPC أو الأنظمة الأساسية السحابية. منصة NVIDIA على مستوى المؤسسات مع بنية الحاوية الأولى لقياس الأداء القابل للتكرار.

37التثبيتات·1الرائج·@orchestra-research

التثبيت

$npx skills add https://github.com/orchestra-research/ai-research-skills --skill nemo-evaluator-sdk

كيفية تثبيت nemo-evaluator-sdk

ثبّت مهارة الذكاء الاصطناعي nemo-evaluator-sdk بسرعة في بيئة التطوير لديك عبر سطر الأوامر

  1. افتح الطرفية: افتح الطرفية أو أداة سطر الأوامر لديك مثل Terminal أو iTerm أو Windows Terminal
  2. نفّذ أمر التثبيت: انسخ ونفّذ هذا الأمر: npx skills add https://github.com/orchestra-research/ai-research-skills --skill nemo-evaluator-sdk
  3. تحقق من التثبيت: بعد التثبيت، سيتم إعداد المهارة تلقائيا في بيئة البرمجة بالذكاء الاصطناعي لديك وتصبح جاهزة للاستخدام في Claude Code أو Cursor أو OpenClaw

المصدر: orchestra-research/ai-research-skills.

NeMo Evaluator SDK evaluates LLMs across 100+ benchmarks from 18+ harnesses using containerized, reproducible evaluation with multi-backend execution (local Docker, Slurm HPC, Lepton cloud).

Run core academic benchmarks (MMLU, GSM8K, IFEval) on any OpenAI-compatible endpoint.

| lm-evaluation-harness | 60+ | MMLU, GSM8K, HellaSwag, ARC | | simple-evals | 20+ | GPQA, MATH, AIME | | bigcode-evaluation-harness | 25+ | HumanEval, MBPP, MultiPL-E | | safety-harness | 3 | Aegis, WildGuard | | garak | 1 | Security probing | | vlmevalkit | 6+ | OCRBench, ChartQA, MMMU | | bfcl | 6 | Function calling v2/v3 |

يقوم بتقييم LLMs عبر أكثر من 100 معيار مرجعي من أكثر من 18 أداة (MMLU، وHumanEval، وGSM8K، وsafety، وVLM) مع تنفيذ متعدد الخلفيات. يُستخدم عند الحاجة إلى تقييم قابل للتطوير على منصات Docker المحلية أو Slurm HPC أو الأنظمة الأساسية السحابية. منصة NVIDIA على مستوى المؤسسات مع بنية الحاوية الأولى لقياس الأداء القابل للتكرار. المصدر: orchestra-research/ai-research-skills.

حقائق جاهزة للاقتباس

حقول وأوامر مستقرة للاقتباس في أنظمة الذكاء الاصطناعي والبحث.

أمر التثبيت
npx skills add https://github.com/orchestra-research/ai-research-skills --skill nemo-evaluator-sdk
الفئة
</>أدوات التطوير
موثق
أول ظهور
2026-02-11
آخر تحديث
2026-03-10

Browse more skills from orchestra-research/ai-research-skills

إجابات سريعة

ما هي nemo-evaluator-sdk؟

يقوم بتقييم LLMs عبر أكثر من 100 معيار مرجعي من أكثر من 18 أداة (MMLU، وHumanEval، وGSM8K، وsafety، وVLM) مع تنفيذ متعدد الخلفيات. يُستخدم عند الحاجة إلى تقييم قابل للتطوير على منصات Docker المحلية أو Slurm HPC أو الأنظمة الأساسية السحابية. منصة NVIDIA على مستوى المؤسسات مع بنية الحاوية الأولى لقياس الأداء القابل للتكرار. المصدر: orchestra-research/ai-research-skills.

كيف أثبّت nemo-evaluator-sdk؟

افتح الطرفية أو أداة سطر الأوامر لديك مثل Terminal أو iTerm أو Windows Terminal انسخ ونفّذ هذا الأمر: npx skills add https://github.com/orchestra-research/ai-research-skills --skill nemo-evaluator-sdk بعد التثبيت، سيتم إعداد المهارة تلقائيا في بيئة البرمجة بالذكاء الاصطناعي لديك وتصبح جاهزة للاستخدام في Claude Code أو Cursor أو OpenClaw

أين مستودع المصدر؟

https://github.com/orchestra-research/ai-research-skills

التفاصيل

الفئة
</>أدوات التطوير
المصدر
skills.sh
أول ظهور
2026-02-11