pydantic-evals とは?
強力な型付けを備えたコードファースト評価フレームワークを使用して、AI エージェントと LLM 出力をテストおよび評価します。ユーザーが次のことを行う場合に使用します: (1) AI エージェントのテスト ケースを含む評価データセットを作成する、(2) 評価者 (決定論的、LLM-as-Judge、カスタム、またはスパンベース) を定義する、(3) 評価を実行してレポートを生成する、(4) 実験全体でモデルのパフォーマンスを比較する、(5) Pydantic AI エージェントと評価を統合する、(6) Logfire で可観測性を設定する、(7) LLM を使用してテスト データセットを生成する、(8) AI システムの回帰テストを実装します。 ソース: fuenfgeld/pydantic-ai-skills。