agent-evaluation

Name: agent-evaluation
Author: omer-metin

✓

LLM エージェントのテストとベンチマーク (動作テスト、機能評価、信頼性メトリクス、運用監視など)。トップエージェントでも現実世界のベンチマークで 50% 未満の達成率を達成します。「エージェントテスト、エージェント評価、ベンチマークエージェント、エージェントの信頼性、テストエージェント、テスト、評価、ベンチマーク、エージェント、信頼性、品質」に言及する場合に使用します。

omer-metin·agent·evaluation

10インストール·0トレンド·@omer-metin

インストール

$npx skills add https://github.com/omer-metin/skills-for-antigravity --skill agent-evaluation

詳細

カテゴリ: </>開発ツール
ソース: skills.sh
初回登録: 2026-02-01

agent-evaluation

インストール

SKILL.md

引用可能な情報

クイックアンサー

agent-evaluation とは？

agent-evaluation のインストール方法は？

ソースリポジトリはどこですか？

詳細

関連 Skills