llm-evaluation
自動化されたメトリクス、人間によるフィードバック、ベンチマークを使用して、LLM アプリケーションの包括的な評価戦略を実装します。 LLM のパフォーマンスをテストする場合、AI アプリケーションの品質を測定する場合、または評価フレームワークを確立する場合に使用します。
SKILL.md
Master comprehensive evaluation strategies for LLM applications, from automated metrics to human evaluation and A/B testing.
Automated Metrics Fast, repeatable, scalable evaluation using computed scores.
Human Evaluation Manual assessment for quality aspects difficult to automate.
自動化されたメトリクス、人間によるフィードバック、ベンチマークを使用して、LLM アプリケーションの包括的な評価戦略を実装します。 LLM のパフォーマンスをテストする場合、AI アプリケーションの品質を測定する場合、または評価フレームワークを確立する場合に使用します。 ソース: microck/ordinary-claude-skills。
引用可能な情報
AI/検索での引用用の安定したフィールドとコマンド。
- インストールコマンド
npx skills add https://github.com/microck/ordinary-claude-skills --skill llm-evaluation- カテゴリ
- </>開発ツール
- 認証済み
- —
- 初回登録
- 2026-02-01
- 更新日
- 2026-02-18
クイックアンサー
llm-evaluation とは?
自動化されたメトリクス、人間によるフィードバック、ベンチマークを使用して、LLM アプリケーションの包括的な評価戦略を実装します。 LLM のパフォーマンスをテストする場合、AI アプリケーションの品質を測定する場合、または評価フレームワークを確立する場合に使用します。 ソース: microck/ordinary-claude-skills。
llm-evaluation のインストール方法は?
ターミナルまたはコマンドラインツール(Terminal、iTerm、Windows Terminal など)を開きます このコマンドをコピーして実行します: npx skills add https://github.com/microck/ordinary-claude-skills --skill llm-evaluation インストール後、スキルは自動的に AI コーディング環境に設定され、Claude Code や Cursor で使用できるようになります
ソースリポジトリはどこですか?
https://github.com/microck/ordinary-claude-skills
詳細
- カテゴリ
- </>開発ツール
- ソース
- user
- 初回登録
- 2026-02-01