Che cos'è pydantic-evals?
Testare e valutare gli agenti AI e gli output LLM utilizzando un framework di valutazione code-first con tipizzazione forte. Utilizzare quando l'utente desidera: (1) creare set di dati di valutazione con casi di test per agenti AI, (2) definire valutatori (deterministici, LLM-as-Judge, personalizzati o basati su span), (3) eseguire valutazioni e generare report, (4) confrontare le prestazioni del modello tra esperimenti, (5) integrare valutazioni con agenti AI Pydantic, (6) impostare l'osservabilità con Logfire, (7) generare set di dati di test utilizzando LLM, (8) implementare test di regressione per sistemi di intelligenza artificiale. Fonte: fuenfgeld/pydantic-ai-skills.