·evaluating-code-models

</>

evaluating-code-models

✓

orchestra-research/ai-research-skills

使用 pass@k 指标跨 HumanEval、MBPP、MultiPL-E 和 15+ 基准评估代码生成模型。在对代码模型进行基准测试、比较编码能力、测试多语言支持或测量代码生成质量时使用。 HuggingFace 排行榜使用的 BigCode 项目的行业标准。

orchestra-research·evaluating·code·models

15安装·0热度·@orchestra-research

安装

$npx skills add https://github.com/orchestra-research/ai-research-skills --skill evaluating-code-models

详情

分类: </>开发工具
来源: skills.sh
收录时间: 2026-02-11

相关 Skills

ml-paper-writing

serving-llms-vllm