·evaluating-code-models
</>

evaluating-code-models

orchestra-research/ai-research-skills

使用 pass@k 指标跨 HumanEval、MBPP、MultiPL-E 和 15+ 基准评估代码生成模型。在对代码模型进行基准测试、比较编码能力、测试多语言支持或测量代码生成质量时使用。 HuggingFace 排行榜使用的 BigCode 项目的行业标准。

15安装·0热度·@orchestra-research

安装

$npx skills add https://github.com/orchestra-research/ai-research-skills --skill evaluating-code-models

SKILL.md

BigCode Evaluation Harness evaluates code generation models across 15+ benchmarks including HumanEval, MBPP, and MultiPL-E (18 languages).

Supported languages: Python, JavaScript, Java, C++, Go, Rust, TypeScript, C#, PHP, Ruby, Swift, Kotlin, Scala, Perl, Julia, Lua, R, Racket

| Benchmark | Problems | Languages | Metric | Use Case |

使用 pass@k 指标跨 HumanEval、MBPP、MultiPL-E 和 15+ 基准评估代码生成模型。在对代码模型进行基准测试、比较编码能力、测试多语言支持或测量代码生成质量时使用。 HuggingFace 排行榜使用的 BigCode 项目的行业标准。 来源:orchestra-research/ai-research-skills。

查看原文

可引用信息

为搜索与 AI 引用准备的稳定字段与命令。

安装命令
npx skills add https://github.com/orchestra-research/ai-research-skills --skill evaluating-code-models
分类
</>开发工具
认证
收录时间
2026-02-11
更新时间
2026-02-18

快速解答

什么是 evaluating-code-models?

使用 pass@k 指标跨 HumanEval、MBPP、MultiPL-E 和 15+ 基准评估代码生成模型。在对代码模型进行基准测试、比较编码能力、测试多语言支持或测量代码生成质量时使用。 HuggingFace 排行榜使用的 BigCode 项目的行业标准。 来源:orchestra-research/ai-research-skills。

如何安装 evaluating-code-models?

打开你的终端或命令行工具(如 Terminal、iTerm、Windows Terminal 等) 复制并运行以下命令:npx skills add https://github.com/orchestra-research/ai-research-skills --skill evaluating-code-models 安装完成后,技能将自动配置到你的 AI 编程环境中,可以在 Claude Code 或 Cursor 中使用

这个 Skill 的源码在哪?

https://github.com/orchestra-research/ai-research-skills

详情

分类
</>开发工具
来源
skills.sh
收录时间
2026-02-11