Qu'est-ce que evaluating-llms-harness ?
Évalue les LLM sur plus de 60 références académiques (MMLU, HumanEval, GSM8K, TruthfulQA, HellaSwag). À utiliser pour évaluer la qualité des modèles, comparer des modèles, rapporter des résultats académiques ou suivre les progrès de la formation. Norme industrielle utilisée par EleutherAI, HuggingFace et les principaux laboratoires. Prend en charge HuggingFace, vLLM et les API. Source : ovachiever/droid-tings.