·evaluating-code-models
</>

evaluating-code-models

orchestra-research/ai-research-skills

Evalúa modelos de generación de código en HumanEval, MBPP, MultiPL-E y más de 15 puntos de referencia con métricas pass@k. Úselo para comparar modelos de código, comparar capacidades de codificación, probar la compatibilidad con varios idiomas o medir la calidad de la generación de código. Estándar de la industria del Proyecto BigCode utilizado por las tablas de clasificación de HuggingFace.

15Instalaciones·0Tendencia·@orchestra-research

Instalación

$npx skills add https://github.com/orchestra-research/ai-research-skills --skill evaluating-code-models

SKILL.md

BigCode Evaluation Harness evaluates code generation models across 15+ benchmarks including HumanEval, MBPP, and MultiPL-E (18 languages).

Supported languages: Python, JavaScript, Java, C++, Go, Rust, TypeScript, C#, PHP, Ruby, Swift, Kotlin, Scala, Perl, Julia, Lua, R, Racket

| Benchmark | Problems | Languages | Metric | Use Case |

Evalúa modelos de generación de código en HumanEval, MBPP, MultiPL-E y más de 15 puntos de referencia con métricas pass@k. Úselo para comparar modelos de código, comparar capacidades de codificación, probar la compatibilidad con varios idiomas o medir la calidad de la generación de código. Estándar de la industria del Proyecto BigCode utilizado por las tablas de clasificación de HuggingFace. Fuente: orchestra-research/ai-research-skills.

Ver original

Datos (listos para citar)

Campos y comandos estables para citas de IA/búsqueda.

Comando de instalación
npx skills add https://github.com/orchestra-research/ai-research-skills --skill evaluating-code-models
Categoría
</>Desarrollo
Verificado
Primera vez visto
2026-02-11
Actualizado
2026-02-18

Respuestas rápidas

¿Qué es evaluating-code-models?

Evalúa modelos de generación de código en HumanEval, MBPP, MultiPL-E y más de 15 puntos de referencia con métricas pass@k. Úselo para comparar modelos de código, comparar capacidades de codificación, probar la compatibilidad con varios idiomas o medir la calidad de la generación de código. Estándar de la industria del Proyecto BigCode utilizado por las tablas de clasificación de HuggingFace. Fuente: orchestra-research/ai-research-skills.

¿Cómo instalo evaluating-code-models?

Abre tu terminal o herramienta de línea de comandos (Terminal, iTerm, Windows Terminal, etc.) Copia y ejecuta este comando: npx skills add https://github.com/orchestra-research/ai-research-skills --skill evaluating-code-models Una vez instalado, el skill se configurará automáticamente en tu entorno de programación con IA y estará listo para usar en Claude Code o Cursor

¿Dónde está el repositorio de origen?

https://github.com/orchestra-research/ai-research-skills