Qu'est-ce que pydantic-evals ?
Testez et évaluez les agents IA et les résultats LLM à l’aide d’un cadre d’évaluation axé sur le code avec un typage fort. À utiliser lorsque l'utilisateur souhaite : (1) Créer des ensembles de données d'évaluation avec des cas de test pour les agents d'IA, (2) Définir des évaluateurs (déterministes, LLM en tant que juge, personnalisés ou basés sur l'étendue), (3) Exécuter des évaluations et générer des rapports, (4) Comparer les performances du modèle entre les expériences, (5) Intégrer des évaluations avec des agents d'IA Pydantic, (6) Configurer l'observabilité avec Logfire, (7) Générer des ensembles de données de test à l'aide de LLM, (8) Implémenter la régression. tests pour les systèmes d’IA. Source : fuenfgeld/pydantic-ai-skills.