agent-evaluation

Name: agent-evaluation
Author: automindtechnologie-jpg

✓

automindtechnologie-jpg/ultimate-skill.md

Test e benchmarking degli agenti LLM, inclusi test comportamentali, valutazione delle capacità, metriche di affidabilità e monitoraggio della produzione, dove anche gli agenti migliori ottengono meno del 50% sui benchmark reali. Utilizzare quando: test degli agenti, valutazione degli agenti, agenti di benchmark, affidabilità degli agenti, agente di test.

automindtechnologie-jpg·agent·evaluation

3Installazioni·1Tendenza·@automindtechnologie-jpg