evaluating-llms-harness이란?
60개 이상의 학술 벤치마크(MMLU, HumanEval, GSM8K, TruthfulQA, HellaSwag)에서 LLM을 평가합니다. 모델 품질 벤치마킹, 모델 비교, 학업 결과 보고 또는 교육 진행 상황 추적에 사용합니다. EleutherAI, HuggingFace 및 주요 연구소에서 사용하는 산업 표준입니다. HuggingFace, vLLM, API를 지원합니다. 출처: ovachiever/droid-tings.