llm-evaluation
✓LLM 使用 Promptfoo 进行提示测试、评估和 CI/CD 质量关卡。 调用时: - 设置即时评估或回归测试 - 将 LLM 测试集成到 CI/CD 管道中 - 配置安全测试(红队、越狱) - 比较提示或模型性能 - 构建 RAG、真实性或安全性评估套件 关键词:promptfoo、llm 评估、提示测试、红队、CI/CD、回归测试
SKILL.md
Test prompts, models, and RAG systems with automated evaluation and CI/CD integration.
LLM outputs are non-deterministic. "It looks good" isn't testing. You need:
| Functional | Does it work? | contains, equals, is-json | | Semantic | Is it correct? | similar, llm-rubric, factuality | | Performance | Is it fast/cheap? | cost, latency | | Security | Is it safe? | redteam, moderation, pii-detection |
LLM 使用 Promptfoo 进行提示测试、评估和 CI/CD 质量关卡。 调用时: - 设置即时评估或回归测试 - 将 LLM 测试集成到 CI/CD 管道中 - 配置安全测试(红队、越狱) - 比较提示或模型性能 - 构建 RAG、真实性或安全性评估套件 关键词:promptfoo、llm 评估、提示测试、红队、CI/CD、回归测试 来源:phrazzld/claude-config。
可引用信息
为搜索与 AI 引用准备的稳定字段与命令。
- 安装命令
npx skills add https://github.com/phrazzld/claude-config --skill llm-evaluation- 分类
- </>开发工具
- 认证
- ✓
- 收录时间
- 2026-02-01
- 更新时间
- 2026-02-18
快速解答
什么是 llm-evaluation?
LLM 使用 Promptfoo 进行提示测试、评估和 CI/CD 质量关卡。 调用时: - 设置即时评估或回归测试 - 将 LLM 测试集成到 CI/CD 管道中 - 配置安全测试(红队、越狱) - 比较提示或模型性能 - 构建 RAG、真实性或安全性评估套件 关键词:promptfoo、llm 评估、提示测试、红队、CI/CD、回归测试 来源:phrazzld/claude-config。
如何安装 llm-evaluation?
打开你的终端或命令行工具(如 Terminal、iTerm、Windows Terminal 等) 复制并运行以下命令:npx skills add https://github.com/phrazzld/claude-config --skill llm-evaluation 安装完成后,技能将自动配置到你的 AI 编程环境中,可以在 Claude Code 或 Cursor 中使用
这个 Skill 的源码在哪?
https://github.com/phrazzld/claude-config
详情
- 分类
- </>开发工具
- 来源
- skills.sh
- 收录时间
- 2026-02-01