evaluating-llms
✓自動化されたメトリクス、LLM-as-judge、ベンチマークを使用して LLM システムを評価します。プロンプト品質のテスト、RAG パイプラインの検証、安全性 (幻覚、偏見) の測定、または実稼働展開用のモデルの比較を行う場合に使用します。
SKILL.md
Evaluate Large Language Model (LLM) systems using automated metrics, LLM-as-judge patterns, and standardized benchmarks to ensure production quality and safety.
| Task Type | Primary Approach | Metrics | Tools |
| Classification (sentiment, intent) | Automated metrics | Accuracy, Precision, Recall, F1 | scikit-learn | | Generation (summaries, creative text) | LLM-as-judge + automated | BLEU, ROUGE, BERTScore, Quality rubric | GPT-4/Claude for judging | | Question Answering | Exact match + semantic similarity | EM, F1, Cosine similarity | Custom evaluators |
自動化されたメトリクス、LLM-as-judge、ベンチマークを使用して LLM システムを評価します。プロンプト品質のテスト、RAG パイプラインの検証、安全性 (幻覚、偏見) の測定、または実稼働展開用のモデルの比較を行う場合に使用します。 ソース: ancoleman/ai-design-components。
引用可能な情報
AI/検索での引用用の安定したフィールドとコマンド。
- インストールコマンド
npx skills add https://github.com/ancoleman/ai-design-components --skill evaluating-llms- カテゴリ
- </>開発ツール
- 認証済み
- ✓
- 初回登録
- 2026-02-01
- 更新日
- 2026-02-18
クイックアンサー
evaluating-llms とは?
自動化されたメトリクス、LLM-as-judge、ベンチマークを使用して LLM システムを評価します。プロンプト品質のテスト、RAG パイプラインの検証、安全性 (幻覚、偏見) の測定、または実稼働展開用のモデルの比較を行う場合に使用します。 ソース: ancoleman/ai-design-components。
evaluating-llms のインストール方法は?
ターミナルまたはコマンドラインツール(Terminal、iTerm、Windows Terminal など)を開きます このコマンドをコピーして実行します: npx skills add https://github.com/ancoleman/ai-design-components --skill evaluating-llms インストール後、スキルは自動的に AI コーディング環境に設定され、Claude Code や Cursor で使用できるようになります
ソースリポジトリはどこですか?
https://github.com/ancoleman/ai-design-components
詳細
- カテゴリ
- </>開発ツール
- ソース
- skills.sh
- 初回登録
- 2026-02-01