·evaluating-llms-harness
</>

evaluating-llms-harness

Evalúa LLM en más de 60 puntos de referencia académicos (MMLU, HumanEval, GSM8K, TruthfulQA, HellaSwag). Úselo para evaluar la calidad del modelo, comparar modelos, informar resultados académicos o realizar un seguimiento del progreso de la capacitación. Estándar de la industria utilizado por EleutherAI, HuggingFace y los principales laboratorios. Admite HuggingFace, vLLM y API.

26Instalaciones·0Tendencia·@ovachiever

Instalación

$npx skills add https://github.com/ovachiever/droid-tings --skill evaluating-llms-harness

Cómo instalar evaluating-llms-harness

Instala rápidamente el skill de IA evaluating-llms-harness en tu entorno de desarrollo mediante línea de comandos

  1. Abrir Terminal: Abre tu terminal o herramienta de línea de comandos (Terminal, iTerm, Windows Terminal, etc.)
  2. Ejecutar comando de instalación: Copia y ejecuta este comando: npx skills add https://github.com/ovachiever/droid-tings --skill evaluating-llms-harness
  3. Verificar instalación: Una vez instalado, el skill se configurará automáticamente en tu entorno de programación con IA y estará listo para usar en Claude Code, Cursor u OpenClaw

Fuente: ovachiever/droid-tings.

SKILL.md

Ver original

lm-evaluation-harness evaluates LLMs across 60+ academic benchmarks using standardized prompts and metrics.

Benchmark descriptions: See references/benchmark-guide.md for detailed description of all 60+ tasks, what they measure, and interpretation.

Custom tasks: See references/custom-tasks.md for creating domain-specific evaluation tasks.

Evalúa LLM en más de 60 puntos de referencia académicos (MMLU, HumanEval, GSM8K, TruthfulQA, HellaSwag). Úselo para evaluar la calidad del modelo, comparar modelos, informar resultados académicos o realizar un seguimiento del progreso de la capacitación. Estándar de la industria utilizado por EleutherAI, HuggingFace y los principales laboratorios. Admite HuggingFace, vLLM y API. Fuente: ovachiever/droid-tings.

Datos (listos para citar)

Campos y comandos estables para citas de IA/búsqueda.

Comando de instalación
npx skills add https://github.com/ovachiever/droid-tings --skill evaluating-llms-harness
Categoría
</>Desarrollo
Verificado
Primera vez visto
2026-03-03
Actualizado
2026-03-10

Browse more skills from ovachiever/droid-tings

Respuestas rápidas

¿Qué es evaluating-llms-harness?

Evalúa LLM en más de 60 puntos de referencia académicos (MMLU, HumanEval, GSM8K, TruthfulQA, HellaSwag). Úselo para evaluar la calidad del modelo, comparar modelos, informar resultados académicos o realizar un seguimiento del progreso de la capacitación. Estándar de la industria utilizado por EleutherAI, HuggingFace y los principales laboratorios. Admite HuggingFace, vLLM y API. Fuente: ovachiever/droid-tings.

¿Cómo instalo evaluating-llms-harness?

Abre tu terminal o herramienta de línea de comandos (Terminal, iTerm, Windows Terminal, etc.) Copia y ejecuta este comando: npx skills add https://github.com/ovachiever/droid-tings --skill evaluating-llms-harness Una vez instalado, el skill se configurará automáticamente en tu entorno de programación con IA y estará listo para usar en Claude Code, Cursor u OpenClaw

¿Dónde está el repositorio de origen?

https://github.com/ovachiever/droid-tings