llm-as-a-judge

Name: llm-as-a-judge
Author: maragudk

✓

maragudk/evals-skills

LLM パイプライン出力の品質評価を自動化するための LLM-as-Judge エバリュエーターを構築、検証、展開します。ユーザーが望むときはいつでも、このスキルを使用してください: 主観的または微妙な故障モードの自動評価器を作成する、合否評価用のジャッジプロンプトを作成する、ジャッジ開発用にラベル付きデータを分割する、ジャッジアライメント (TPR/TNR) を測定する、バイアス補正を使用して真の成功率を推定する、または CI 評価パイプラインを設定する。また、ユーザーが「判定プロンプト」、「自動評価」、「LLM 評価者」、「採点プロンプト」、「アライメントメトリクス」、「真陽性率」に言及した場合、または手動トレースレビューから自動評価に移行したい場合にもトリガーされます。このスキルは、プロンプト設計→データ分割→反復改良→成功率推定というライフサイクル全体をカバーします。

maragudk·llm·as·judge

8インストール·0トレンド·@maragudk

インストール

$npx skills add https://github.com/maragudk/evals-skills --skill llm-as-a-judge

詳細

カテゴリ: </>開発ツール
ソース: skills.sh
初回登録: 2026-02-22

llm-as-a-judge

インストール

llm-as-a-judge のインストール方法

SKILL.md

引用可能な情報

クイックアンサー

llm-as-a-judge とは？

llm-as-a-judge のインストール方法は？

ソースリポジトリはどこですか？

詳細

関連 Skills