Was ist evaluating-llms-harness?
Bewertet LLMs anhand von mehr als 60 akademischen Benchmarks (MMLU, HumanEval, GSM8K, TruthfulQA, HellaSwag). Verwenden Sie es zum Benchmarking der Modellqualität, zum Vergleichen von Modellen, zum Berichten akademischer Ergebnisse oder zum Verfolgen des Trainingsfortschritts. Industriestandard, der von EleutherAI, HuggingFace und großen Labors verwendet wird. Unterstützt HuggingFace, vLLM und APIs. Quelle: ovachiever/droid-tings.