evaluating-code-models
✓HumanEval、MBPP、MultiPL-E、および pass@k メトリクスを使用した 15 以上のベンチマークにわたるコード生成モデルを評価します。コード モデルのベンチマーク、コーディング能力の比較、多言語サポートのテスト、またはコード生成品質の測定を行う場合に使用します。 HuggingFace リーダーボードで使用される BigCode プロジェクトの業界標準。
SKILL.md
BigCode Evaluation Harness evaluates code generation models across 15+ benchmarks including HumanEval, MBPP, and MultiPL-E (18 languages).
Supported languages: Python, JavaScript, Java, C++, Go, Rust, TypeScript, C#, PHP, Ruby, Swift, Kotlin, Scala, Perl, Julia, Lua, R, Racket
| Benchmark | Problems | Languages | Metric | Use Case |
HumanEval、MBPP、MultiPL-E、および pass@k メトリクスを使用した 15 以上のベンチマークにわたるコード生成モデルを評価します。コード モデルのベンチマーク、コーディング能力の比較、多言語サポートのテスト、またはコード生成品質の測定を行う場合に使用します。 HuggingFace リーダーボードで使用される BigCode プロジェクトの業界標準。 ソース: orchestra-research/ai-research-skills。
引用可能な情報
AI/検索での引用用の安定したフィールドとコマンド。
- インストールコマンド
npx skills add https://github.com/orchestra-research/ai-research-skills --skill evaluating-code-models- カテゴリ
- </>開発ツール
- 認証済み
- ✓
- 初回登録
- 2026-02-11
- 更新日
- 2026-02-18
クイックアンサー
evaluating-code-models とは?
HumanEval、MBPP、MultiPL-E、および pass@k メトリクスを使用した 15 以上のベンチマークにわたるコード生成モデルを評価します。コード モデルのベンチマーク、コーディング能力の比較、多言語サポートのテスト、またはコード生成品質の測定を行う場合に使用します。 HuggingFace リーダーボードで使用される BigCode プロジェクトの業界標準。 ソース: orchestra-research/ai-research-skills。
evaluating-code-models のインストール方法は?
ターミナルまたはコマンドラインツール(Terminal、iTerm、Windows Terminal など)を開きます このコマンドをコピーして実行します: npx skills add https://github.com/orchestra-research/ai-research-skills --skill evaluating-code-models インストール後、スキルは自動的に AI コーディング環境に設定され、Claude Code や Cursor で使用できるようになります
ソースリポジトリはどこですか?
https://github.com/orchestra-research/ai-research-skills
詳細
- カテゴリ
- </>開発ツール
- ソース
- skills.sh
- 初回登録
- 2026-02-11