·evaluating-llms-harness
</>

evaluating-llms-harness

60 以上の学術ベンチマーク (MMLU、HumanEval、GSM8K、TruthfulQA、HellaSwag) にわたって LLM を評価します。モデルの品質のベンチマーク、モデルの比較、学術結果の報告、またはトレーニングの進捗状況の追跡を行う場合に使用します。 EleutherAI、HuggingFace、および主要なラボで使用されている業界標準。 HuggingFace、vLLM、API をサポートします。

26インストール·0トレンド·@ovachiever

インストール

$npx skills add https://github.com/ovachiever/droid-tings --skill evaluating-llms-harness

evaluating-llms-harness のインストール方法

コマンドラインで evaluating-llms-harness AI スキルを開発環境にすばやくインストール

  1. ターミナルを開く: ターミナルまたはコマンドラインツール(Terminal、iTerm、Windows Terminal など)を開きます
  2. インストールコマンドを実行: このコマンドをコピーして実行します: npx skills add https://github.com/ovachiever/droid-tings --skill evaluating-llms-harness
  3. インストールを確認: インストール後、スキルは自動的に AI コーディング環境に設定され、Claude Code、Cursor、OpenClaw で使用できるようになります

ソース: ovachiever/droid-tings。

lm-evaluation-harness evaluates LLMs across 60+ academic benchmarks using standardized prompts and metrics.

Benchmark descriptions: See references/benchmark-guide.md for detailed description of all 60+ tasks, what they measure, and interpretation.

Custom tasks: See references/custom-tasks.md for creating domain-specific evaluation tasks.

60 以上の学術ベンチマーク (MMLU、HumanEval、GSM8K、TruthfulQA、HellaSwag) にわたって LLM を評価します。モデルの品質のベンチマーク、モデルの比較、学術結果の報告、またはトレーニングの進捗状況の追跡を行う場合に使用します。 EleutherAI、HuggingFace、および主要なラボで使用されている業界標準。 HuggingFace、vLLM、API をサポートします。 ソース: ovachiever/droid-tings。

引用可能な情報

AI/検索での引用用の安定したフィールドとコマンド。

インストールコマンド
npx skills add https://github.com/ovachiever/droid-tings --skill evaluating-llms-harness
カテゴリ
</>開発ツール
認証済み
初回登録
2026-03-03
更新日
2026-03-10

Browse more skills from ovachiever/droid-tings

クイックアンサー

evaluating-llms-harness とは?

60 以上の学術ベンチマーク (MMLU、HumanEval、GSM8K、TruthfulQA、HellaSwag) にわたって LLM を評価します。モデルの品質のベンチマーク、モデルの比較、学術結果の報告、またはトレーニングの進捗状況の追跡を行う場合に使用します。 EleutherAI、HuggingFace、および主要なラボで使用されている業界標準。 HuggingFace、vLLM、API をサポートします。 ソース: ovachiever/droid-tings。

evaluating-llms-harness のインストール方法は?

ターミナルまたはコマンドラインツール(Terminal、iTerm、Windows Terminal など)を開きます このコマンドをコピーして実行します: npx skills add https://github.com/ovachiever/droid-tings --skill evaluating-llms-harness インストール後、スキルは自動的に AI コーディング環境に設定され、Claude Code、Cursor、OpenClaw で使用できるようになります

ソースリポジトリはどこですか?

https://github.com/ovachiever/droid-tings