¿Qué es evaluating-llms-harness?
Evalúa LLM en más de 60 puntos de referencia académicos (MMLU, HumanEval, GSM8K, TruthfulQA, HellaSwag). Úselo para evaluar la calidad del modelo, comparar modelos, informar resultados académicos o realizar un seguimiento del progreso de la capacitación. Estándar de la industria utilizado por EleutherAI, HuggingFace y los principales laboratorios. Admite HuggingFace, vLLM y API. Fuente: ovachiever/droid-tings.