·agent-evaluation

</>

agent-evaluation

✓

omer-metin/skills-for-antigravity

對 LLM 代理進行測試和基準測試，包括行為測試、能力評估、可靠性指標和生產監控，即使是頂級代理在實際基准上的成績也不到 50%。當提到“代理測試、代理評估、基準代理、代理可靠性、測試代理、測試、評估、基準、代理、可靠性、質量”時使用。

omer-metin·agent·evaluation

10安裝·0熱度·@omer-metin

安裝

$npx skills add https://github.com/omer-metin/skills-for-antigravity --skill agent-evaluation

詳情

分類: </>開發工具
來源: skills.sh
收錄時間: 2026-02-01

相關 Skills

technical-analysis

crypto-trading-bots

pixel-art-sprites

quantitative-research

threejs-3d-graphics