Che cos'è agent-evaluation?
Test e benchmarking degli agenti LLM, inclusi test comportamentali, valutazione delle capacità, metriche di affidabilità e monitoraggio della produzione, dove anche gli agenti migliori ottengono meno del 50% sui benchmark reali. Utilizzare quando: test degli agenti, valutazione degli agenti, agenti di benchmark, affidabilità degli agenti, agente di test. Fonte: automindtechnologie-jpg/ultimate-skill.md.