llm-as-a-judge とは?
LLM パイプライン出力の品質評価を自動化するための LLM-as-Judge エバリュエーターを構築、検証、展開します。ユーザーが望むときはいつでも、このスキルを使用してください: 主観的または微妙な故障モードの自動評価器を作成する、合否評価用のジャッジ プロンプトを作成する、ジャッジ開発用にラベル付きデータを分割する、ジャッジ アライメント (TPR/TNR) を測定する、バイアス補正を使用して真の成功率を推定する、または CI 評価パイプラインを設定する。また、ユーザーが「判定プロンプト」、「自動評価」、「LLM 評価者」、「採点プロンプト」、「アライメントメトリクス」、「真陽性率」に言及した場合、または手動トレースレビューから自動評価に移行したい場合にもトリガーされます。このスキルは、プロンプト設計→データ分割→反復改良→成功率推定というライフサイクル全体をカバーします。 ソース: maragudk/evals-skills。