·evaluating-llms
</>

evaluating-llms

ancoleman/ai-design-components

使用自动化指标、LLM 法官和基准评估 LLM 系统。在测试即时质量、验证 RAG 管道、测量安全性(幻觉、偏差)或比较生产部署模型时使用。

7安装·0热度·@ancoleman

安装

$npx skills add https://github.com/ancoleman/ai-design-components --skill evaluating-llms

SKILL.md

Evaluate Large Language Model (LLM) systems using automated metrics, LLM-as-judge patterns, and standardized benchmarks to ensure production quality and safety.

| Task Type | Primary Approach | Metrics | Tools |

| Classification (sentiment, intent) | Automated metrics | Accuracy, Precision, Recall, F1 | scikit-learn | | Generation (summaries, creative text) | LLM-as-judge + automated | BLEU, ROUGE, BERTScore, Quality rubric | GPT-4/Claude for judging | | Question Answering | Exact match + semantic similarity | EM, F1, Cosine similarity | Custom evaluators |

使用自动化指标、LLM 法官和基准评估 LLM 系统。在测试即时质量、验证 RAG 管道、测量安全性(幻觉、偏差)或比较生产部署模型时使用。 来源:ancoleman/ai-design-components。

查看原文

可引用信息

为搜索与 AI 引用准备的稳定字段与命令。

安装命令
npx skills add https://github.com/ancoleman/ai-design-components --skill evaluating-llms
分类
</>开发工具
认证
收录时间
2026-02-01
更新时间
2026-02-18

快速解答

什么是 evaluating-llms?

使用自动化指标、LLM 法官和基准评估 LLM 系统。在测试即时质量、验证 RAG 管道、测量安全性(幻觉、偏差)或比较生产部署模型时使用。 来源:ancoleman/ai-design-components。

如何安装 evaluating-llms?

打开你的终端或命令行工具(如 Terminal、iTerm、Windows Terminal 等) 复制并运行以下命令:npx skills add https://github.com/ancoleman/ai-design-components --skill evaluating-llms 安装完成后,技能将自动配置到你的 AI 编程环境中,可以在 Claude Code 或 Cursor 中使用

这个 Skill 的源码在哪?

https://github.com/ancoleman/ai-design-components