evaluating-llms-harness

Name: evaluating-llms-harness
Author: ovachiever

✓

ovachiever/droid-tings

يقيم LLMs عبر أكثر من 60 معيارًا أكاديميًا (MMLU، وHumanEval، وGSM8K، وTruthfulQA، وHellaSwag). يُستخدم عند قياس جودة النموذج، أو مقارنة النماذج، أو الإبلاغ عن النتائج الأكاديمية، أو تتبع تقدم التدريب. معيار الصناعة الذي تستخدمه EleutherAI وHuggingFace والمختبرات الكبرى. يدعم HuggingFace، vLLM، واجهات برمجة التطبيقات.

ovachiever·evaluating·llms·harness

26التثبيتات·0الرائج·@ovachiever