·evaluating-llms-harness
</>

evaluating-llms-harness

Évalue les LLM sur plus de 60 références académiques (MMLU, HumanEval, GSM8K, TruthfulQA, HellaSwag). À utiliser pour évaluer la qualité des modèles, comparer des modèles, rapporter des résultats académiques ou suivre les progrès de la formation. Norme industrielle utilisée par EleutherAI, HuggingFace et les principaux laboratoires. Prend en charge HuggingFace, vLLM et les API.

26Installations·0Tendance·@ovachiever

Installation

$npx skills add https://github.com/ovachiever/droid-tings --skill evaluating-llms-harness

Comment installer evaluating-llms-harness

Installez rapidement le skill IA evaluating-llms-harness dans votre environnement de développement via la ligne de commande

  1. Ouvrir le Terminal: Ouvrez votre terminal ou outil de ligne de commande (Terminal, iTerm, Windows Terminal, etc.)
  2. Exécuter la commande d'installation: Copiez et exécutez cette commande : npx skills add https://github.com/ovachiever/droid-tings --skill evaluating-llms-harness
  3. Vérifier l'installation: Une fois installé, le skill sera automatiquement configuré dans votre environnement de programmation IA et prêt à être utilisé dans Claude Code, Cursor ou OpenClaw

Source : ovachiever/droid-tings.

lm-evaluation-harness evaluates LLMs across 60+ academic benchmarks using standardized prompts and metrics.

Benchmark descriptions: See references/benchmark-guide.md for detailed description of all 60+ tasks, what they measure, and interpretation.

Custom tasks: See references/custom-tasks.md for creating domain-specific evaluation tasks.

Évalue les LLM sur plus de 60 références académiques (MMLU, HumanEval, GSM8K, TruthfulQA, HellaSwag). À utiliser pour évaluer la qualité des modèles, comparer des modèles, rapporter des résultats académiques ou suivre les progrès de la formation. Norme industrielle utilisée par EleutherAI, HuggingFace et les principaux laboratoires. Prend en charge HuggingFace, vLLM et les API. Source : ovachiever/droid-tings.

Faits (prêts à citer)

Champs et commandes stables pour les citations IA/recherche.

Commande d'installation
npx skills add https://github.com/ovachiever/droid-tings --skill evaluating-llms-harness
Catégorie
</>Développement
Vérifié
Première apparition
2026-03-03
Mis à jour
2026-03-10

Browse more skills from ovachiever/droid-tings

Réponses rapides

Qu'est-ce que evaluating-llms-harness ?

Évalue les LLM sur plus de 60 références académiques (MMLU, HumanEval, GSM8K, TruthfulQA, HellaSwag). À utiliser pour évaluer la qualité des modèles, comparer des modèles, rapporter des résultats académiques ou suivre les progrès de la formation. Norme industrielle utilisée par EleutherAI, HuggingFace et les principaux laboratoires. Prend en charge HuggingFace, vLLM et les API. Source : ovachiever/droid-tings.

Comment installer evaluating-llms-harness ?

Ouvrez votre terminal ou outil de ligne de commande (Terminal, iTerm, Windows Terminal, etc.) Copiez et exécutez cette commande : npx skills add https://github.com/ovachiever/droid-tings --skill evaluating-llms-harness Une fois installé, le skill sera automatiquement configuré dans votre environnement de programmation IA et prêt à être utilisé dans Claude Code, Cursor ou OpenClaw

Où se trouve le dépôt source ?

https://github.com/ovachiever/droid-tings