·evaluating-llms
</>

evaluating-llms

ancoleman/ai-design-components

使用自動化指標、LLM 法官和基準評估 LLM 系統。在測試即時質量、驗證 RAG 管道、測量安全性(幻覺、偏差)或比較生產部署模型時使用。

7安裝·0熱度·@ancoleman

安裝

$npx skills add https://github.com/ancoleman/ai-design-components --skill evaluating-llms

SKILL.md

Evaluate Large Language Model (LLM) systems using automated metrics, LLM-as-judge patterns, and standardized benchmarks to ensure production quality and safety.

| Task Type | Primary Approach | Metrics | Tools |

| Classification (sentiment, intent) | Automated metrics | Accuracy, Precision, Recall, F1 | scikit-learn | | Generation (summaries, creative text) | LLM-as-judge + automated | BLEU, ROUGE, BERTScore, Quality rubric | GPT-4/Claude for judging | | Question Answering | Exact match + semantic similarity | EM, F1, Cosine similarity | Custom evaluators |

使用自動化指標、LLM 法官和基準評估 LLM 系統。在測試即時質量、驗證 RAG 管道、測量安全性(幻覺、偏差)或比較生產部署模型時使用。 來源:ancoleman/ai-design-components。

查看原文

可引用資訊

為搜尋與 AI 引用準備的穩定欄位與指令。

安裝指令
npx skills add https://github.com/ancoleman/ai-design-components --skill evaluating-llms
分類
</>開發工具
認證
收錄時間
2026-02-01
更新時間
2026-02-18

快速解答

什麼是 evaluating-llms?

使用自動化指標、LLM 法官和基準評估 LLM 系統。在測試即時質量、驗證 RAG 管道、測量安全性(幻覺、偏差)或比較生產部署模型時使用。 來源:ancoleman/ai-design-components。

如何安裝 evaluating-llms?

開啟你的終端機或命令列工具(如 Terminal、iTerm、Windows Terminal 等) 複製並執行以下指令:npx skills add https://github.com/ancoleman/ai-design-components --skill evaluating-llms 安裝完成後,技能將自動設定到你的 AI 程式設計環境中,可以在 Claude Code 或 Cursor 中使用

這個 Skill 的原始碼在哪?

https://github.com/ancoleman/ai-design-components