evaluating-llms-harness

Name: evaluating-llms-harness
Author: ovachiever

✓

ovachiever/droid-tings

通过 60 多个学术基准（MMLU、HumanEval、GSM8K、TruthfulQA、HellaSwag）评估法学硕士。在对模型质量进行基准测试、比较模型、报告学术成果或跟踪培训进度时使用。 EleutherAI、HuggingFace 和主要实验室使用的行业标准。支援 HuggingFace、vLLM、API。

ovachiever·evaluating·llms·harness

26安裝·0熱度·@ovachiever

安裝

$npx skills add https://github.com/ovachiever/droid-tings --skill evaluating-llms-harness

詳情

分類: </>開發工具
來源: skills.sh
收錄時間: 2026-03-03

evaluating-llms-harness

安裝

如何安裝 evaluating-llms-harness

SKILL.md

可引用資訊

快速解答

什麼是 evaluating-llms-harness？

如何安裝 evaluating-llms-harness？

這個 Skill 的原始碼在哪？

詳情

相關 Skills