ما هي evaluating-code-models؟
يقوم بتقييم نماذج إنشاء التعليمات البرمجية عبر HumanEval وMBPP وMultiPL-E وأكثر من 15 معيارًا باستخدام مقاييس pass@k. يُستخدم عند قياس نماذج التعليمات البرمجية، أو مقارنة قدرات البرمجة، أو اختبار الدعم متعدد اللغات، أو قياس جودة إنشاء التعليمات البرمجية. معيار الصناعة من مشروع BigCode الذي تستخدمه لوحات المتصدرين HuggingFace. المصدر: orchestra-research/ai-research-skills.