Che cos'è evaluating-llms-harness?
Valuta LLM su oltre 60 benchmark accademici (MMLU, HumanEval, GSM8K, TruthfulQA, HellaSwag). Da utilizzare per l'analisi comparativa della qualità dei modelli, il confronto dei modelli, il reporting dei risultati accademici o il monitoraggio dei progressi della formazione. Standard di settore utilizzato da EleutherAI, HuggingFace e dai principali laboratori. Supporta HuggingFace, vLLM, API. Fonte: ovachiever/droid-tings.