·evaluating-llms
</>

evaluating-llms

ancoleman/ai-design-components

自動化されたメトリクス、LLM-as-judge、ベンチマークを使用して LLM システムを評価します。プロンプト品質のテスト、RAG パイプラインの検証、安全性 (幻覚、偏見) の測定、または実稼働展開用のモデルの比較を行う場合に使用します。

7インストール·0トレンド·@ancoleman

インストール

$npx skills add https://github.com/ancoleman/ai-design-components --skill evaluating-llms

SKILL.md

Evaluate Large Language Model (LLM) systems using automated metrics, LLM-as-judge patterns, and standardized benchmarks to ensure production quality and safety.

| Task Type | Primary Approach | Metrics | Tools |

| Classification (sentiment, intent) | Automated metrics | Accuracy, Precision, Recall, F1 | scikit-learn | | Generation (summaries, creative text) | LLM-as-judge + automated | BLEU, ROUGE, BERTScore, Quality rubric | GPT-4/Claude for judging | | Question Answering | Exact match + semantic similarity | EM, F1, Cosine similarity | Custom evaluators |

自動化されたメトリクス、LLM-as-judge、ベンチマークを使用して LLM システムを評価します。プロンプト品質のテスト、RAG パイプラインの検証、安全性 (幻覚、偏見) の測定、または実稼働展開用のモデルの比較を行う場合に使用します。 ソース: ancoleman/ai-design-components。

原文を見る

引用可能な情報

AI/検索での引用用の安定したフィールドとコマンド。

インストールコマンド
npx skills add https://github.com/ancoleman/ai-design-components --skill evaluating-llms
カテゴリ
</>開発ツール
認証済み
初回登録
2026-02-01
更新日
2026-02-18

クイックアンサー

evaluating-llms とは?

自動化されたメトリクス、LLM-as-judge、ベンチマークを使用して LLM システムを評価します。プロンプト品質のテスト、RAG パイプラインの検証、安全性 (幻覚、偏見) の測定、または実稼働展開用のモデルの比較を行う場合に使用します。 ソース: ancoleman/ai-design-components。

evaluating-llms のインストール方法は?

ターミナルまたはコマンドラインツール(Terminal、iTerm、Windows Terminal など)を開きます このコマンドをコピーして実行します: npx skills add https://github.com/ancoleman/ai-design-components --skill evaluating-llms インストール後、スキルは自動的に AI コーディング環境に設定され、Claude Code や Cursor で使用できるようになります

ソースリポジトリはどこですか?

https://github.com/ancoleman/ai-design-components