evaluating-llms-harness

Name: evaluating-llms-harness
Author: ovachiever

✓

ovachiever/droid-tings

通过 60 多个学术基准（MMLU、HumanEval、GSM8K、TruthfulQA、HellaSwag）评估法学硕士。在对模型质量进行基准测试、比较模型、报告学术成果或跟踪培训进度时使用。 EleutherAI、HuggingFace 和主要实验室使用的行业标准。支持 HuggingFace、vLLM、API。

ovachiever·evaluating·llms·harness

26安装·0热度·@ovachiever

安装

$npx skills add https://github.com/ovachiever/droid-tings --skill evaluating-llms-harness

详情

分类: </>开发工具
来源: skills.sh
收录时间: 2026-03-03

evaluating-llms-harness

安装

如何安装 evaluating-llms-harness

SKILL.md

可引用信息

快速解答

什么是 evaluating-llms-harness？

如何安装 evaluating-llms-harness？

这个 Skill 的源码在哪？

详情

相关 Skills