·evaluating-llms-harness
</>

evaluating-llms-harness

Bewertet LLMs anhand von mehr als 60 akademischen Benchmarks (MMLU, HumanEval, GSM8K, TruthfulQA, HellaSwag). Verwenden Sie es zum Benchmarking der Modellqualität, zum Vergleichen von Modellen, zum Berichten akademischer Ergebnisse oder zum Verfolgen des Trainingsfortschritts. Industriestandard, der von EleutherAI, HuggingFace und großen Labors verwendet wird. Unterstützt HuggingFace, vLLM und APIs.

26Installationen·0Trend·@ovachiever

Installation

$npx skills add https://github.com/ovachiever/droid-tings --skill evaluating-llms-harness

So installieren Sie evaluating-llms-harness

Installieren Sie den KI-Skill evaluating-llms-harness schnell in Ihrer Entwicklungsumgebung über die Kommandozeile

  1. Terminal öffnen: Öffnen Sie Ihr Terminal oder Kommandozeilen-Tool (Terminal, iTerm, Windows Terminal, etc.)
  2. Installationsbefehl ausführen: Kopieren Sie diesen Befehl und führen Sie ihn aus: npx skills add https://github.com/ovachiever/droid-tings --skill evaluating-llms-harness
  3. Installation überprüfen: Nach der Installation wird der Skill automatisch in Ihrer KI-Programmierumgebung konfiguriert und ist bereit zur Verwendung in Claude Code, Cursor oder OpenClaw

Quelle: ovachiever/droid-tings.

lm-evaluation-harness evaluates LLMs across 60+ academic benchmarks using standardized prompts and metrics.

Benchmark descriptions: See references/benchmark-guide.md for detailed description of all 60+ tasks, what they measure, and interpretation.

Custom tasks: See references/custom-tasks.md for creating domain-specific evaluation tasks.

Bewertet LLMs anhand von mehr als 60 akademischen Benchmarks (MMLU, HumanEval, GSM8K, TruthfulQA, HellaSwag). Verwenden Sie es zum Benchmarking der Modellqualität, zum Vergleichen von Modellen, zum Berichten akademischer Ergebnisse oder zum Verfolgen des Trainingsfortschritts. Industriestandard, der von EleutherAI, HuggingFace und großen Labors verwendet wird. Unterstützt HuggingFace, vLLM und APIs. Quelle: ovachiever/droid-tings.

Fakten (zitierbereit)

Stabile Felder und Befehle für KI/Such-Zitate.

Installationsbefehl
npx skills add https://github.com/ovachiever/droid-tings --skill evaluating-llms-harness
Kategorie
</>Entwicklung
Verifiziert
Erstes Auftreten
2026-03-03
Aktualisiert
2026-03-10

Browse more skills from ovachiever/droid-tings

Schnelle Antworten

Was ist evaluating-llms-harness?

Bewertet LLMs anhand von mehr als 60 akademischen Benchmarks (MMLU, HumanEval, GSM8K, TruthfulQA, HellaSwag). Verwenden Sie es zum Benchmarking der Modellqualität, zum Vergleichen von Modellen, zum Berichten akademischer Ergebnisse oder zum Verfolgen des Trainingsfortschritts. Industriestandard, der von EleutherAI, HuggingFace und großen Labors verwendet wird. Unterstützt HuggingFace, vLLM und APIs. Quelle: ovachiever/droid-tings.

Wie installiere ich evaluating-llms-harness?

Öffnen Sie Ihr Terminal oder Kommandozeilen-Tool (Terminal, iTerm, Windows Terminal, etc.) Kopieren Sie diesen Befehl und führen Sie ihn aus: npx skills add https://github.com/ovachiever/droid-tings --skill evaluating-llms-harness Nach der Installation wird der Skill automatisch in Ihrer KI-Programmierumgebung konfiguriert und ist bereit zur Verwendung in Claude Code, Cursor oder OpenClaw

Wo ist das Quell-Repository?

https://github.com/ovachiever/droid-tings