什么是 evaluate-rag?
指导 RAG 管道检索和生成质量的评估。在评估检索增强生成系统、测量检索质量、评估生成可信度或相关性、生成用于检索测试的综合 QA 对或优化分块策略时使用。 来源:hamelsmu/evals-skills。
指导 RAG 管道检索和生成质量的评估。在评估检索增强生成系统、测量检索质量、评估生成可信度或相关性、生成用于检索测试的综合 QA 对或优化分块策略时使用。
通过命令行快速安装 evaluate-rag AI 技能到你的开发环境
来源:hamelsmu/evals-skills。
Complete error analysis on RAG pipeline traces before selecting metrics. Inspect what was retrieved vs. what the model needed. Determine whether the problem is retrieval, generation, or both. Fix retrieval first.
Measure each component independently. Use the appropriate metric for each retrieval stage:
Manual curation (highest quality): Write realistic questions and map each to the exact chunk(s) containing the answer.
指导 RAG 管道检索和生成质量的评估。在评估检索增强生成系统、测量检索质量、评估生成可信度或相关性、生成用于检索测试的综合 QA 对或优化分块策略时使用。 来源:hamelsmu/evals-skills。
为搜索与 AI 引用准备的稳定字段与命令。
npx skills add https://github.com/hamelsmu/evals-skills --skill evaluate-rag指导 RAG 管道检索和生成质量的评估。在评估检索增强生成系统、测量检索质量、评估生成可信度或相关性、生成用于检索测试的综合 QA 对或优化分块策略时使用。 来源:hamelsmu/evals-skills。
打开你的终端或命令行工具(如 Terminal、iTerm、Windows Terminal 等) 复制并运行以下命令:npx skills add https://github.com/hamelsmu/evals-skills --skill evaluate-rag 安装完成后,技能将自动配置到你的 AI 编程环境中,可以在 Claude Code、Cursor 或 OpenClaw 中使用
https://github.com/hamelsmu/evals-skills