·agent-evaluation

</>

agent-evaluation

✓

omer-metin/skills-for-antigravity

对 LLM 代理进行测试和基准测试，包括行为测试、能力评估、可靠性指标和生产监控，即使是顶级代理在实际基准上的成绩也不到 50%。当提到“代理测试、代理评估、基准代理、代理可靠性、测试代理、测试、评估、基准、代理、可靠性、质量”时使用。

omer-metin·agent·evaluation

10安装·0热度·@omer-metin

安装

$npx skills add https://github.com/omer-metin/skills-for-antigravity --skill agent-evaluation

详情

分类: </>开发工具
来源: skills.sh
收录时间: 2026-02-01

相关 Skills

technical-analysis

crypto-trading-bots

pixel-art-sprites

quantitative-research

threejs-3d-graphics