·evaluating-llms-harness
</>

evaluating-llms-harness

Оценивает LLM по более чем 60 академическим критериям (MMLU, HumanEval, GSM8K, TruthfulQA, HellaSwag). Используйте при сравнительном анализе качества модели, сравнении моделей, составлении отчетов об академических результатах или отслеживании прогресса обучения. Отраслевой стандарт, используемый EleutherAI, HuggingFace и крупными лабораториями. Поддерживает HuggingFace, vLLM, API.

26Установки·0Тренд·@ovachiever

Установка

$npx skills add https://github.com/ovachiever/droid-tings --skill evaluating-llms-harness

Как установить evaluating-llms-harness

Быстро установите AI-навык evaluating-llms-harness в вашу среду разработки через командную строку

  1. Откройте терминал: Откройте терминал или инструмент командной строки (Terminal, iTerm, Windows Terminal и т.д.)
  2. Выполните команду установки: Скопируйте и выполните эту команду: npx skills add https://github.com/ovachiever/droid-tings --skill evaluating-llms-harness
  3. Проверьте установку: После установки навык будет автоматически настроен в вашей AI-среде разработки и готов к использованию в Claude Code, Cursor или OpenClaw

Источник: ovachiever/droid-tings.

lm-evaluation-harness evaluates LLMs across 60+ academic benchmarks using standardized prompts and metrics.

Benchmark descriptions: See references/benchmark-guide.md for detailed description of all 60+ tasks, what they measure, and interpretation.

Custom tasks: See references/custom-tasks.md for creating domain-specific evaluation tasks.

Оценивает LLM по более чем 60 академическим критериям (MMLU, HumanEval, GSM8K, TruthfulQA, HellaSwag). Используйте при сравнительном анализе качества модели, сравнении моделей, составлении отчетов об академических результатах или отслеживании прогресса обучения. Отраслевой стандарт, используемый EleutherAI, HuggingFace и крупными лабораториями. Поддерживает HuggingFace, vLLM, API. Источник: ovachiever/droid-tings.

Факты (для цитирования)

Стабильные поля и команды для ссылок в AI/поиске.

Команда установки
npx skills add https://github.com/ovachiever/droid-tings --skill evaluating-llms-harness
Источник
ovachiever/droid-tings
Категория
</>Разработка
Проверено
Впервые замечено
2026-03-03
Обновлено
2026-03-10

Browse more skills from ovachiever/droid-tings

Короткие ответы

Что такое evaluating-llms-harness?

Оценивает LLM по более чем 60 академическим критериям (MMLU, HumanEval, GSM8K, TruthfulQA, HellaSwag). Используйте при сравнительном анализе качества модели, сравнении моделей, составлении отчетов об академических результатах или отслеживании прогресса обучения. Отраслевой стандарт, используемый EleutherAI, HuggingFace и крупными лабораториями. Поддерживает HuggingFace, vLLM, API. Источник: ovachiever/droid-tings.

Как установить evaluating-llms-harness?

Откройте терминал или инструмент командной строки (Terminal, iTerm, Windows Terminal и т.д.) Скопируйте и выполните эту команду: npx skills add https://github.com/ovachiever/droid-tings --skill evaluating-llms-harness После установки навык будет автоматически настроен в вашей AI-среде разработки и готов к использованию в Claude Code, Cursor или OpenClaw

Где находится исходный репозиторий?

https://github.com/ovachiever/droid-tings