·agent-evaluation

</>

agent-evaluation

✓

xfstudio/skills

對 LLM 代理進行測試和基準測試，包括行為測試、能力評估、可靠性指標和生產監控，即使是頂級代理在實際基准上的成績也低於 50% 使用場合：代理測試、代理評估、基準代理、代理可靠性、測試代理。

xfstudio·agent·evaluation

5安裝·0熱度·@xfstudio

安裝

$npx skills add https://github.com/xfstudio/skills --skill agent-evaluation

詳情

分類: </>開發工具
來源: skills.sh
收錄時間: 2026-02-01

相關 Skills

3d-web-experience

baoyu-post-to-wechat

frontend-design