agent-evaluation

Name: agent-evaluation
Author: sebas-aikon-intelligence

✓

sebas-aikon-intelligence/antigravity-awesome-skills

Testing and benchmarking LLM agents including behavioral testing, capability assessment, reliability metrics, and production monitoring—where even top agents achieve less than 50% on real-world benchmarks Use when: agent testing, agent evaluation, benchmark agents, agent reliability, test agent.

sebas-aikon-intelligence·agent·evaluation

3Installs·0Trend·@sebas-aikon-intelligence