evaluating-llms-harness

Name: evaluating-llms-harness
Author: ovachiever

✓

ovachiever/droid-tings

Bewertet LLMs anhand von mehr als 60 akademischen Benchmarks (MMLU, HumanEval, GSM8K, TruthfulQA, HellaSwag). Verwenden Sie es zum Benchmarking der Modellqualität, zum Vergleichen von Modellen, zum Berichten akademischer Ergebnisse oder zum Verfolgen des Trainingsfortschritts. Industriestandard, der von EleutherAI, HuggingFace und großen Labors verwendet wird. Unterstützt HuggingFace, vLLM und APIs.

ovachiever·evaluating·llms·harness

26Installationen·0Trend·@ovachiever

Installation

$npx skills add https://github.com/ovachiever/droid-tings --skill evaluating-llms-harness

Details

Kategorie: </>Entwicklung
Quelle: skills.sh
Erstes Auftreten: 2026-03-03

evaluating-llms-harness

Installation

So installieren Sie evaluating-llms-harness

SKILL.md

Fakten (zitierbereit)

Schnelle Antworten

Was ist evaluating-llms-harness?

Wie installiere ich evaluating-llms-harness?

Wo ist das Quell-Repository?

Details

Verwandte Skills