evaluating-llms-harness

Name: evaluating-llms-harness
Author: ovachiever

✓

ovachiever/droid-tings

Оценивает LLM по более чем 60 академическим критериям (MMLU, HumanEval, GSM8K, TruthfulQA, HellaSwag). Используйте при сравнительном анализе качества модели, сравнении моделей, составлении отчетов об академических результатах или отслеживании прогресса обучения. Отраслевой стандарт, используемый EleutherAI, HuggingFace и крупными лабораториями. Поддерживает HuggingFace, vLLM, API.

ovachiever·evaluating·llms·harness

26Установки·0Тренд·@ovachiever

Установка

$npx skills add https://github.com/ovachiever/droid-tings --skill evaluating-llms-harness

Детали

Категория: </>Разработка
Источник: skills.sh
Впервые замечено: 2026-03-03

evaluating-llms-harness

Установка

Как установить evaluating-llms-harness

SKILL.md

Факты (для цитирования)

Короткие ответы

Что такое evaluating-llms-harness?

Как установить evaluating-llms-harness?

Где находится исходный репозиторий?

Детали

Похожие навыки