Что такое evaluating-code-models?
Оценивает модели генерации кода в тестах HumanEval, MBPP, MultiPL-E и более чем 15 тестах с помощью метрик pass@k. Используйте при тестировании моделей кода, сравнении возможностей кодирования, тестировании поддержки нескольких языков или измерении качества генерации кода. Отраслевой стандарт проекта BigCode, используемый в таблицах лидеров HuggingFace. Источник: orchestra-research/ai-research-skills.