agent-evaluation

Name: agent-evaluation
Author: hainamchung

✓

動作テスト、機能評価、信頼性メトリクス、運用監視などの LLM エージェントのテストとベンチマーク。トップのエージェントでも現実世界のベンチマークで 50% 未満の達成率を示します。次のような場合に使用します。エージェントのテスト、エージェントの評価、ベンチマークエージェント、エージェントの信頼性、テストエージェント。

hainamchung·agent·evaluation

2インストール·0トレンド·@hainamchung

インストール

$npx skills add https://github.com/hainamchung/agent-assistant --skill agent-evaluation

詳細

カテゴリ: </>開発ツール
ソース: skills.sh
初回登録: 2026-02-01

agent-evaluation

インストール

SKILL.md

引用可能な情報

クイックアンサー

agent-evaluation とは？

agent-evaluation のインストール方法は？

ソースリポジトリはどこですか？

詳細

関連 Skills