evaluating-llms-harness とは?
60 以上の学術ベンチマーク (MMLU、HumanEval、GSM8K、TruthfulQA、HellaSwag) にわたって LLM を評価します。モデルの品質のベンチマーク、モデルの比較、学術結果の報告、またはトレーニングの進捗状況の追跡を行う場合に使用します。 EleutherAI、HuggingFace、および主要なラボで使用されている業界標準。 HuggingFace、vLLM、API をサポートします。 ソース: ovachiever/droid-tings。