·evaluating-llms-harness
</>

evaluating-llms-harness

Valuta LLM su oltre 60 benchmark accademici (MMLU, HumanEval, GSM8K, TruthfulQA, HellaSwag). Da utilizzare per l'analisi comparativa della qualità dei modelli, il confronto dei modelli, il reporting dei risultati accademici o il monitoraggio dei progressi della formazione. Standard di settore utilizzato da EleutherAI, HuggingFace e dai principali laboratori. Supporta HuggingFace, vLLM, API.

26Installazioni·0Tendenza·@ovachiever

Installazione

$npx skills add https://github.com/ovachiever/droid-tings --skill evaluating-llms-harness

Come installare evaluating-llms-harness

Installa rapidamente la skill AI evaluating-llms-harness nel tuo ambiente di sviluppo tramite riga di comando

  1. Apri il terminale: Apri il tuo terminale o strumento da riga di comando (Terminal, iTerm, Windows Terminal, ecc.)
  2. Esegui il comando di installazione: Copia ed esegui questo comando: npx skills add https://github.com/ovachiever/droid-tings --skill evaluating-llms-harness
  3. Verifica l'installazione: Dopo l'installazione, la skill verrà configurata automaticamente nel tuo ambiente AI di coding e sarà pronta all'uso in Claude Code, Cursor o OpenClaw

Fonte: ovachiever/droid-tings.

lm-evaluation-harness evaluates LLMs across 60+ academic benchmarks using standardized prompts and metrics.

Benchmark descriptions: See references/benchmark-guide.md for detailed description of all 60+ tasks, what they measure, and interpretation.

Custom tasks: See references/custom-tasks.md for creating domain-specific evaluation tasks.

Valuta LLM su oltre 60 benchmark accademici (MMLU, HumanEval, GSM8K, TruthfulQA, HellaSwag). Da utilizzare per l'analisi comparativa della qualità dei modelli, il confronto dei modelli, il reporting dei risultati accademici o il monitoraggio dei progressi della formazione. Standard di settore utilizzato da EleutherAI, HuggingFace e dai principali laboratori. Supporta HuggingFace, vLLM, API. Fonte: ovachiever/droid-tings.

Fatti (pronti per citazione)

Campi e comandi stabili per citazioni AI/ricerca.

Comando di installazione
npx skills add https://github.com/ovachiever/droid-tings --skill evaluating-llms-harness
Categoria
</>Sviluppo
Verificato
Prima apparizione
2026-03-03
Aggiornato
2026-03-11

Browse more skills from ovachiever/droid-tings

Risposte rapide

Che cos'è evaluating-llms-harness?

Valuta LLM su oltre 60 benchmark accademici (MMLU, HumanEval, GSM8K, TruthfulQA, HellaSwag). Da utilizzare per l'analisi comparativa della qualità dei modelli, il confronto dei modelli, il reporting dei risultati accademici o il monitoraggio dei progressi della formazione. Standard di settore utilizzato da EleutherAI, HuggingFace e dai principali laboratori. Supporta HuggingFace, vLLM, API. Fonte: ovachiever/droid-tings.

Come installo evaluating-llms-harness?

Apri il tuo terminale o strumento da riga di comando (Terminal, iTerm, Windows Terminal, ecc.) Copia ed esegui questo comando: npx skills add https://github.com/ovachiever/droid-tings --skill evaluating-llms-harness Dopo l'installazione, la skill verrà configurata automaticamente nel tuo ambiente AI di coding e sarà pronta all'uso in Claude Code, Cursor o OpenClaw

Dov'è il repository sorgente?

https://github.com/ovachiever/droid-tings