·evaluating-code-models
</>

evaluating-code-models

orchestra-research/ai-research-skills

Bewertet Codegenerierungsmodelle in HumanEval, MBPP, MultiPL-E und mehr als 15 Benchmarks mit pass@k-Metriken. Verwenden Sie es zum Benchmarking von Codemodellen, zum Vergleichen von Codierungsfähigkeiten, zum Testen der Unterstützung mehrerer Sprachen oder zum Messen der Qualität der Codegenerierung. Industriestandard des BigCode-Projekts, der von HuggingFace-Bestenlisten verwendet wird.

15Installationen·0Trend·@orchestra-research

Installation

$npx skills add https://github.com/orchestra-research/ai-research-skills --skill evaluating-code-models

SKILL.md

BigCode Evaluation Harness evaluates code generation models across 15+ benchmarks including HumanEval, MBPP, and MultiPL-E (18 languages).

Supported languages: Python, JavaScript, Java, C++, Go, Rust, TypeScript, C#, PHP, Ruby, Swift, Kotlin, Scala, Perl, Julia, Lua, R, Racket

| Benchmark | Problems | Languages | Metric | Use Case |

Bewertet Codegenerierungsmodelle in HumanEval, MBPP, MultiPL-E und mehr als 15 Benchmarks mit pass@k-Metriken. Verwenden Sie es zum Benchmarking von Codemodellen, zum Vergleichen von Codierungsfähigkeiten, zum Testen der Unterstützung mehrerer Sprachen oder zum Messen der Qualität der Codegenerierung. Industriestandard des BigCode-Projekts, der von HuggingFace-Bestenlisten verwendet wird. Quelle: orchestra-research/ai-research-skills.

Original anzeigen

Fakten (zitierbereit)

Stabile Felder und Befehle für KI/Such-Zitate.

Installationsbefehl
npx skills add https://github.com/orchestra-research/ai-research-skills --skill evaluating-code-models
Kategorie
</>Entwicklung
Verifiziert
Erstes Auftreten
2026-02-11
Aktualisiert
2026-02-18

Schnelle Antworten

Was ist evaluating-code-models?

Bewertet Codegenerierungsmodelle in HumanEval, MBPP, MultiPL-E und mehr als 15 Benchmarks mit pass@k-Metriken. Verwenden Sie es zum Benchmarking von Codemodellen, zum Vergleichen von Codierungsfähigkeiten, zum Testen der Unterstützung mehrerer Sprachen oder zum Messen der Qualität der Codegenerierung. Industriestandard des BigCode-Projekts, der von HuggingFace-Bestenlisten verwendet wird. Quelle: orchestra-research/ai-research-skills.

Wie installiere ich evaluating-code-models?

Öffnen Sie Ihr Terminal oder Kommandozeilen-Tool (Terminal, iTerm, Windows Terminal, etc.) Kopieren Sie diesen Befehl und führen Sie ihn aus: npx skills add https://github.com/orchestra-research/ai-research-skills --skill evaluating-code-models Nach der Installation wird der Skill automatisch in Ihrer KI-Programmierumgebung konfiguriert und ist bereit zur Verwendung in Claude Code oder Cursor

Wo ist das Quell-Repository?

https://github.com/orchestra-research/ai-research-skills