·evaluating-llms-harness
</>

evaluating-llms-harness

يقيم LLMs عبر أكثر من 60 معيارًا أكاديميًا (MMLU، وHumanEval، وGSM8K، وTruthfulQA، وHellaSwag). يُستخدم عند قياس جودة النموذج، أو مقارنة النماذج، أو الإبلاغ عن النتائج الأكاديمية، أو تتبع تقدم التدريب. معيار الصناعة الذي تستخدمه EleutherAI وHuggingFace والمختبرات الكبرى. يدعم HuggingFace، vLLM، واجهات برمجة التطبيقات.

26التثبيتات·0الرائج·@ovachiever

التثبيت

$npx skills add https://github.com/ovachiever/droid-tings --skill evaluating-llms-harness

كيفية تثبيت evaluating-llms-harness

ثبّت مهارة الذكاء الاصطناعي evaluating-llms-harness بسرعة في بيئة التطوير لديك عبر سطر الأوامر

  1. افتح الطرفية: افتح الطرفية أو أداة سطر الأوامر لديك مثل Terminal أو iTerm أو Windows Terminal
  2. نفّذ أمر التثبيت: انسخ ونفّذ هذا الأمر: npx skills add https://github.com/ovachiever/droid-tings --skill evaluating-llms-harness
  3. تحقق من التثبيت: بعد التثبيت، سيتم إعداد المهارة تلقائيا في بيئة البرمجة بالذكاء الاصطناعي لديك وتصبح جاهزة للاستخدام في Claude Code أو Cursor أو OpenClaw

المصدر: ovachiever/droid-tings.

lm-evaluation-harness evaluates LLMs across 60+ academic benchmarks using standardized prompts and metrics.

Benchmark descriptions: See references/benchmark-guide.md for detailed description of all 60+ tasks, what they measure, and interpretation.

Custom tasks: See references/custom-tasks.md for creating domain-specific evaluation tasks.

يقيم LLMs عبر أكثر من 60 معيارًا أكاديميًا (MMLU، وHumanEval، وGSM8K، وTruthfulQA، وHellaSwag). يُستخدم عند قياس جودة النموذج، أو مقارنة النماذج، أو الإبلاغ عن النتائج الأكاديمية، أو تتبع تقدم التدريب. معيار الصناعة الذي تستخدمه EleutherAI وHuggingFace والمختبرات الكبرى. يدعم HuggingFace، vLLM، واجهات برمجة التطبيقات. المصدر: ovachiever/droid-tings.

حقائق جاهزة للاقتباس

حقول وأوامر مستقرة للاقتباس في أنظمة الذكاء الاصطناعي والبحث.

أمر التثبيت
npx skills add https://github.com/ovachiever/droid-tings --skill evaluating-llms-harness
الفئة
</>أدوات التطوير
موثق
أول ظهور
2026-03-03
آخر تحديث
2026-03-10

Browse more skills from ovachiever/droid-tings

إجابات سريعة

ما هي evaluating-llms-harness؟

يقيم LLMs عبر أكثر من 60 معيارًا أكاديميًا (MMLU، وHumanEval، وGSM8K، وTruthfulQA، وHellaSwag). يُستخدم عند قياس جودة النموذج، أو مقارنة النماذج، أو الإبلاغ عن النتائج الأكاديمية، أو تتبع تقدم التدريب. معيار الصناعة الذي تستخدمه EleutherAI وHuggingFace والمختبرات الكبرى. يدعم HuggingFace، vLLM، واجهات برمجة التطبيقات. المصدر: ovachiever/droid-tings.

كيف أثبّت evaluating-llms-harness؟

افتح الطرفية أو أداة سطر الأوامر لديك مثل Terminal أو iTerm أو Windows Terminal انسخ ونفّذ هذا الأمر: npx skills add https://github.com/ovachiever/droid-tings --skill evaluating-llms-harness بعد التثبيت، سيتم إعداد المهارة تلقائيا في بيئة البرمجة بالذكاء الاصطناعي لديك وتصبح جاهزة للاستخدام في Claude Code أو Cursor أو OpenClaw

أين مستودع المصدر؟

https://github.com/ovachiever/droid-tings