evaluating-llms-harness

Name: evaluating-llms-harness
Author: ovachiever

✓

ovachiever/droid-tings

60 以上の学術ベンチマーク (MMLU、HumanEval、GSM8K、TruthfulQA、HellaSwag) にわたって LLM を評価します。モデルの品質のベンチマーク、モデルの比較、学術結果の報告、またはトレーニングの進捗状況の追跡を行う場合に使用します。 EleutherAI、HuggingFace、および主要なラボで使用されている業界標準。 HuggingFace、vLLM、API をサポートします。

ovachiever·evaluating·llms·harness

26インストール·0トレンド·@ovachiever

インストール

$npx skills add https://github.com/ovachiever/droid-tings --skill evaluating-llms-harness

詳細

カテゴリ: </>開発ツール
ソース: skills.sh
初回登録: 2026-03-03

evaluating-llms-harness

インストール

evaluating-llms-harness のインストール方法

SKILL.md

引用可能な情報

クイックアンサー

evaluating-llms-harness とは？

evaluating-llms-harness のインストール方法は？

ソースリポジトリはどこですか？

詳細

関連 Skills