·validate-evaluator
{}

validate-evaluator

データ分割、TPR/TNR、バイアス補正を使用して、人間のラベルに対して LLM ジャッジを調整します。出力を信頼する前に整合性を検証する必要がある場合は、ジャッジ プロンプト (write-judge-prompt) を作成した後に使用します。コードベースのエバリュエーターには使用しないでください (これらは決定論的であり、標準の単体テストでテストします)。

74インストール·2トレンド·@hamelsmu

インストール

$npx skills add https://github.com/hamelsmu/evals-skills --skill validate-evaluator

validate-evaluator のインストール方法

コマンドラインで validate-evaluator AI スキルを開発環境にすばやくインストール

  1. ターミナルを開く: ターミナルまたはコマンドラインツール(Terminal、iTerm、Windows Terminal など)を開きます
  2. インストールコマンドを実行: このコマンドをコピーして実行します: npx skills add https://github.com/hamelsmu/evals-skills --skill validate-evaluator
  3. インストールを確認: インストール後、スキルは自動的に AI コーディング環境に設定され、Claude Code、Cursor、OpenClaw で使用できるようになります

ソース: hamelsmu/evals-skills。

| Training | 10-20% (10-20 examples) | Source of few-shot examples for the judge prompt | Only clear-cut Pass and Fail cases. Used directly in the prompt. | | Dev | 40-45% (40-45 examples) | Iterative evaluator refinement | Never include in the prompt. Evaluate against repeatedly. |

| Test | 40-45% (40-45 examples) | Final unbiased accuracy measurement | Do NOT look at during development. Used once at the end. |

Target: 30-50 examples of each class (Pass and Fail) across dev and test combined. Use balanced splits even if real-world prevalence is skewed — you need enough Fail examples to measure TNR reliably.

データ分割、TPR/TNR、バイアス補正を使用して、人間のラベルに対して LLM ジャッジを調整します。出力を信頼する前に整合性を検証する必要がある場合は、ジャッジ プロンプト (write-judge-prompt) を作成した後に使用します。コードベースのエバリュエーターには使用しないでください (これらは決定論的であり、標準の単体テストでテストします)。 ソース: hamelsmu/evals-skills。

引用可能な情報

AI/検索での引用用の安定したフィールドとコマンド。

インストールコマンド
npx skills add https://github.com/hamelsmu/evals-skills --skill validate-evaluator
カテゴリ
{}データ分析
認証済み
初回登録
2026-03-04
更新日
2026-03-11

Browse more skills from hamelsmu/evals-skills

クイックアンサー

validate-evaluator とは?

データ分割、TPR/TNR、バイアス補正を使用して、人間のラベルに対して LLM ジャッジを調整します。出力を信頼する前に整合性を検証する必要がある場合は、ジャッジ プロンプト (write-judge-prompt) を作成した後に使用します。コードベースのエバリュエーターには使用しないでください (これらは決定論的であり、標準の単体テストでテストします)。 ソース: hamelsmu/evals-skills。

validate-evaluator のインストール方法は?

ターミナルまたはコマンドラインツール(Terminal、iTerm、Windows Terminal など)を開きます このコマンドをコピーして実行します: npx skills add https://github.com/hamelsmu/evals-skills --skill validate-evaluator インストール後、スキルは自動的に AI コーディング環境に設定され、Claude Code、Cursor、OpenClaw で使用できるようになります

ソースリポジトリはどこですか?

https://github.com/hamelsmu/evals-skills