·llm-as-a-judge
</>

llm-as-a-judge

LLM パイプライン出力の品質評価を自動化するための LLM-as-Judge エバリュエーターを構築、検証、展開します。ユーザーが望むときはいつでも、このスキルを使用してください: 主観的または微妙な故障モードの自動評価器を作成する、合否評価用のジャッジ プロンプトを作成する、ジャッジ開発用にラベル付きデータを分割する、ジャッジ アライメント (TPR/TNR) を測定する、バイアス補正を使用して真の成功率を推定する、または CI 評価パイプラインを設定する。また、ユーザーが「判定プロンプト」、「自動評価」、「LLM 評価者」、「採点プロンプト」、「アライメントメトリクス」、「真陽性率」に言及した場合、または手動トレースレビューから自動評価に移行したい場合にもトリガーされます。このスキルは、プロンプト設計→データ分割→反復改良→成功率推定というライフサイクル全体をカバーします。

8インストール·0トレンド·@maragudk

インストール

$npx skills add https://github.com/maragudk/evals-skills --skill llm-as-a-judge

llm-as-a-judge のインストール方法

コマンドラインで llm-as-a-judge AI スキルを開発環境にすばやくインストール

  1. ターミナルを開く: ターミナルまたはコマンドラインツール(Terminal、iTerm、Windows Terminal など)を開きます
  2. インストールコマンドを実行: このコマンドをコピーして実行します: npx skills add https://github.com/maragudk/evals-skills --skill llm-as-a-judge
  3. インストールを確認: インストール後、スキルは自動的に AI コーディング環境に設定され、Claude Code、Cursor、OpenClaw で使用できるようになります

ソース: maragudk/evals-skills。

Build reliable automated evaluators that use an LLM to judge the outputs of another LLM pipeline. Each judge targets a single, binary (Pass/Fail) failure mode identified during error analysis.

Use code-based evaluators when the failure is objective and deterministic:

Each failure mode gets its own dedicated evaluator. Never combine multiple criteria into a single judge prompt—this introduces ambiguity and makes diagnosis harder.

LLM パイプライン出力の品質評価を自動化するための LLM-as-Judge エバリュエーターを構築、検証、展開します。ユーザーが望むときはいつでも、このスキルを使用してください: 主観的または微妙な故障モードの自動評価器を作成する、合否評価用のジャッジ プロンプトを作成する、ジャッジ開発用にラベル付きデータを分割する、ジャッジ アライメント (TPR/TNR) を測定する、バイアス補正を使用して真の成功率を推定する、または CI 評価パイプラインを設定する。また、ユーザーが「判定プロンプト」、「自動評価」、「LLM 評価者」、「採点プロンプト」、「アライメントメトリクス」、「真陽性率」に言及した場合、または手動トレースレビューから自動評価に移行したい場合にもトリガーされます。このスキルは、プロンプト設計→データ分割→反復改良→成功率推定というライフサイクル全体をカバーします。 ソース: maragudk/evals-skills。

引用可能な情報

AI/検索での引用用の安定したフィールドとコマンド。

インストールコマンド
npx skills add https://github.com/maragudk/evals-skills --skill llm-as-a-judge
カテゴリ
</>開発ツール
認証済み
初回登録
2026-02-22
更新日
2026-03-11

Browse more skills from maragudk/evals-skills

クイックアンサー

llm-as-a-judge とは?

LLM パイプライン出力の品質評価を自動化するための LLM-as-Judge エバリュエーターを構築、検証、展開します。ユーザーが望むときはいつでも、このスキルを使用してください: 主観的または微妙な故障モードの自動評価器を作成する、合否評価用のジャッジ プロンプトを作成する、ジャッジ開発用にラベル付きデータを分割する、ジャッジ アライメント (TPR/TNR) を測定する、バイアス補正を使用して真の成功率を推定する、または CI 評価パイプラインを設定する。また、ユーザーが「判定プロンプト」、「自動評価」、「LLM 評価者」、「採点プロンプト」、「アライメントメトリクス」、「真陽性率」に言及した場合、または手動トレースレビューから自動評価に移行したい場合にもトリガーされます。このスキルは、プロンプト設計→データ分割→反復改良→成功率推定というライフサイクル全体をカバーします。 ソース: maragudk/evals-skills。

llm-as-a-judge のインストール方法は?

ターミナルまたはコマンドラインツール(Terminal、iTerm、Windows Terminal など)を開きます このコマンドをコピーして実行します: npx skills add https://github.com/maragudk/evals-skills --skill llm-as-a-judge インストール後、スキルは自動的に AI コーディング環境に設定され、Claude Code、Cursor、OpenClaw で使用できるようになります

ソースリポジトリはどこですか?

https://github.com/maragudk/evals-skills

詳細

カテゴリ
</>開発ツール
ソース
skills.sh
初回登録
2026-02-22