·evaluating-code-models
</>

evaluating-code-models

orchestra-research/ai-research-skills

HumanEval、MBPP、MultiPL-E、および pass@k メトリクスを使用した 15 以上のベンチマークにわたるコード生成モデルを評価します。コード モデルのベンチマーク、コーディング能力の比較、多言語サポートのテスト、またはコード生成品質の測定を行う場合に使用します。 HuggingFace リーダーボードで使用される BigCode プロジェクトの業界標準。

15インストール·0トレンド·@orchestra-research

インストール

$npx skills add https://github.com/orchestra-research/ai-research-skills --skill evaluating-code-models

SKILL.md

BigCode Evaluation Harness evaluates code generation models across 15+ benchmarks including HumanEval, MBPP, and MultiPL-E (18 languages).

Supported languages: Python, JavaScript, Java, C++, Go, Rust, TypeScript, C#, PHP, Ruby, Swift, Kotlin, Scala, Perl, Julia, Lua, R, Racket

| Benchmark | Problems | Languages | Metric | Use Case |

HumanEval、MBPP、MultiPL-E、および pass@k メトリクスを使用した 15 以上のベンチマークにわたるコード生成モデルを評価します。コード モデルのベンチマーク、コーディング能力の比較、多言語サポートのテスト、またはコード生成品質の測定を行う場合に使用します。 HuggingFace リーダーボードで使用される BigCode プロジェクトの業界標準。 ソース: orchestra-research/ai-research-skills。

原文を見る

引用可能な情報

AI/検索での引用用の安定したフィールドとコマンド。

インストールコマンド
npx skills add https://github.com/orchestra-research/ai-research-skills --skill evaluating-code-models
カテゴリ
</>開発ツール
認証済み
初回登録
2026-02-11
更新日
2026-02-18

クイックアンサー

evaluating-code-models とは?

HumanEval、MBPP、MultiPL-E、および pass@k メトリクスを使用した 15 以上のベンチマークにわたるコード生成モデルを評価します。コード モデルのベンチマーク、コーディング能力の比較、多言語サポートのテスト、またはコード生成品質の測定を行う場合に使用します。 HuggingFace リーダーボードで使用される BigCode プロジェクトの業界標準。 ソース: orchestra-research/ai-research-skills。

evaluating-code-models のインストール方法は?

ターミナルまたはコマンドラインツール(Terminal、iTerm、Windows Terminal など)を開きます このコマンドをコピーして実行します: npx skills add https://github.com/orchestra-research/ai-research-skills --skill evaluating-code-models インストール後、スキルは自動的に AI コーディング環境に設定され、Claude Code や Cursor で使用できるようになります

ソースリポジトリはどこですか?

https://github.com/orchestra-research/ai-research-skills