Что такое evaluating-llms-harness?
Оценивает LLM по более чем 60 академическим критериям (MMLU, HumanEval, GSM8K, TruthfulQA, HellaSwag). Используйте при сравнительном анализе качества модели, сравнении моделей, составлении отчетов об академических результатах или отслеживании прогресса обучения. Отраслевой стандарт, используемый EleutherAI, HuggingFace и крупными лабораториями. Поддерживает HuggingFace, vLLM, API. Источник: ovachiever/droid-tings.