evaluating-llms-harness

Name: evaluating-llms-harness
Author: ovachiever

✓

ovachiever/droid-tings

Valuta LLM su oltre 60 benchmark accademici (MMLU, HumanEval, GSM8K, TruthfulQA, HellaSwag). Da utilizzare per l'analisi comparativa della qualità dei modelli, il confronto dei modelli, il reporting dei risultati accademici o il monitoraggio dei progressi della formazione. Standard di settore utilizzato da EleutherAI, HuggingFace e dai principali laboratori. Supporta HuggingFace, vLLM, API.

ovachiever·evaluating·llms·harness

26Installazioni·0Tendenza·@ovachiever