Что такое pydantic-evals?
Тестируйте и оценивайте агенты искусственного интеллекта и результаты LLM, используя структуру оценки, основанную на коде, со строгой типизацией. Используйте, когда пользователь хочет: (1) Создать наборы данных оценки с тестовыми примерами для агентов ИИ, (2) Определить оценщиков (детерминистические, LLM-as-Judge, пользовательские или на основе диапазона), (3) Запустить оценки и создать отчеты, (4) Сравнить производительность модели в экспериментах, (5) Интегрировать оценки с агентами ИИ Pydantic, (6) Настроить наблюдаемость с помощью Logfire, (7) Создать наборы тестовых данных с использованием LLM, (8) Внедрить регрессионное тестирование для систем искусственного интеллекта. Источник: fuenfgeld/pydantic-ai-skills.