evaluating-llms-harness

Name: evaluating-llms-harness
Author: ovachiever

✓

ovachiever/droid-tings

Evalúa LLM en más de 60 puntos de referencia académicos (MMLU, HumanEval, GSM8K, TruthfulQA, HellaSwag). Úselo para evaluar la calidad del modelo, comparar modelos, informar resultados académicos o realizar un seguimiento del progreso de la capacitación. Estándar de la industria utilizado por EleutherAI, HuggingFace y los principales laboratorios. Admite HuggingFace, vLLM y API.

ovachiever·evaluating·llms·harness

26Instalaciones·0Tendencia·@ovachiever