Pydantic Evals provides rigorous testing and evaluation for AI agents and LLM outputs using a code-first approach with Pydantic models. It enables "Evaluation-Driven Development" (EDD) where evaluation suites live alongside application code, subject to version control and CI/CD.
Case A single test scenario with inputs, optional expected output, and metadata.
Dataset Collection of Cases with default evaluators. Generic over input/output types.
강력한 타이핑이 포함된 코드 우선 평가 프레임워크를 사용하여 AI 에이전트 및 LLM 출력을 테스트하고 평가합니다. 사용자가 다음을 원할 때 사용합니다: (1) AI 에이전트에 대한 테스트 사례가 포함된 평가 데이터 세트 생성, (2) 평가자 정의(결정론적, LLM-판단자, 사용자 정의 또는 범위 기반), (3) 평가 실행 및 보고서 생성, (4) 실험 전반에 걸쳐 모델 성능 비교, (5) Pydantic AI 에이전트와 평가 통합, (6) Logfire로 관측 가능성 설정, (7) LLM을 사용하여 테스트 데이터 세트 생성, (8) 다음에 대한 회귀 테스트 구현 AI 시스템. 출처: fuenfgeld/pydantic-ai-skills.