ما هي evaluating-llms-harness؟
يقيم LLMs عبر أكثر من 60 معيارًا أكاديميًا (MMLU، وHumanEval، وGSM8K، وTruthfulQA، وHellaSwag). يُستخدم عند قياس جودة النموذج، أو مقارنة النماذج، أو الإبلاغ عن النتائج الأكاديمية، أو تتبع تقدم التدريب. معيار الصناعة الذي تستخدمه EleutherAI وHuggingFace والمختبرات الكبرى. يدعم HuggingFace، vLLM، واجهات برمجة التطبيقات. المصدر: ovachiever/droid-tings.