validate-evaluator とは?
データ分割、TPR/TNR、バイアス補正を使用して、人間のラベルに対して LLM ジャッジを調整します。出力を信頼する前に整合性を検証する必要がある場合は、ジャッジ プロンプト (write-judge-prompt) を作成した後に使用します。コードベースのエバリュエーターには使用しないでください (これらは決定論的であり、標準の単体テストでテストします)。 ソース: hamelsmu/evals-skills。
データ分割、TPR/TNR、バイアス補正を使用して、人間のラベルに対して LLM ジャッジを調整します。出力を信頼する前に整合性を検証する必要がある場合は、ジャッジ プロンプト (write-judge-prompt) を作成した後に使用します。コードベースのエバリュエーターには使用しないでください (これらは決定論的であり、標準の単体テストでテストします)。
コマンドラインで validate-evaluator AI スキルを開発環境にすばやくインストール
ソース: hamelsmu/evals-skills。
| Training | 10-20% (10-20 examples) | Source of few-shot examples for the judge prompt | Only clear-cut Pass and Fail cases. Used directly in the prompt. | | Dev | 40-45% (40-45 examples) | Iterative evaluator refinement | Never include in the prompt. Evaluate against repeatedly. |
| Test | 40-45% (40-45 examples) | Final unbiased accuracy measurement | Do NOT look at during development. Used once at the end. |
Target: 30-50 examples of each class (Pass and Fail) across dev and test combined. Use balanced splits even if real-world prevalence is skewed — you need enough Fail examples to measure TNR reliably.
データ分割、TPR/TNR、バイアス補正を使用して、人間のラベルに対して LLM ジャッジを調整します。出力を信頼する前に整合性を検証する必要がある場合は、ジャッジ プロンプト (write-judge-prompt) を作成した後に使用します。コードベースのエバリュエーターには使用しないでください (これらは決定論的であり、標準の単体テストでテストします)。 ソース: hamelsmu/evals-skills。
AI/検索での引用用の安定したフィールドとコマンド。
npx skills add https://github.com/hamelsmu/evals-skills --skill validate-evaluatorデータ分割、TPR/TNR、バイアス補正を使用して、人間のラベルに対して LLM ジャッジを調整します。出力を信頼する前に整合性を検証する必要がある場合は、ジャッジ プロンプト (write-judge-prompt) を作成した後に使用します。コードベースのエバリュエーターには使用しないでください (これらは決定論的であり、標準の単体テストでテストします)。 ソース: hamelsmu/evals-skills。
ターミナルまたはコマンドラインツール(Terminal、iTerm、Windows Terminal など)を開きます このコマンドをコピーして実行します: npx skills add https://github.com/hamelsmu/evals-skills --skill validate-evaluator インストール後、スキルは自動的に AI コーディング環境に設定され、Claude Code、Cursor、OpenClaw で使用できるようになります
https://github.com/hamelsmu/evals-skills