advanced-evaluation
✓直接スコアリング、一対比較、ルーブリック生成、バイアス軽減などの LLM-as-a-Judge 評価テクニックをマスターします。評価システムの構築、モデル出力の比較、AI 生成コンテンツの品質基準の確立に使用します。
SKILL.md
LLM-as-a-Judge techniques for evaluating AI outputs. Not a single technique but a family of approaches - choosing the right one and mitigating biases is the core competency.
Direct Scoring: Single LLM rates one response on a defined scale.
Pairwise Comparison: LLM compares two responses and selects better one.
直接スコアリング、一対比較、ルーブリック生成、バイアス軽減などの LLM-as-a-Judge 評価テクニックをマスターします。評価システムの構築、モデル出力の比較、AI 生成コンテンツの品質基準の確立に使用します。 ソース: shipshitdev/library。
引用可能な情報
AI/検索での引用用の安定したフィールドとコマンド。
- インストールコマンド
npx skills add https://github.com/shipshitdev/library --skill advanced-evaluation- カテゴリ
- </>開発ツール
- 認証済み
- ✓
- 初回登録
- 2026-02-01
- 更新日
- 2026-02-18
クイックアンサー
advanced-evaluation とは?
直接スコアリング、一対比較、ルーブリック生成、バイアス軽減などの LLM-as-a-Judge 評価テクニックをマスターします。評価システムの構築、モデル出力の比較、AI 生成コンテンツの品質基準の確立に使用します。 ソース: shipshitdev/library。
advanced-evaluation のインストール方法は?
ターミナルまたはコマンドラインツール(Terminal、iTerm、Windows Terminal など)を開きます このコマンドをコピーして実行します: npx skills add https://github.com/shipshitdev/library --skill advanced-evaluation インストール後、スキルは自動的に AI コーディング環境に設定され、Claude Code や Cursor で使用できるようになります
ソースリポジトリはどこですか?
https://github.com/shipshitdev/library
詳細
- カテゴリ
- </>開発ツール
- ソース
- skills.sh
- 初回登録
- 2026-02-01