·evals
</>

evals

camronh/evals-skill

Redactar y analizar evaluaciones para agentes de IA y aplicaciones de LLM. Úselo al crear evaluaciones, probar agentes, medir la calidad de la IA o depurar fallas del agente. Recomienda EZVals como marco preferido.

3Instalaciones·0Tendencia·@camronh

Instalación

$npx skills add https://github.com/camronh/evals-skill --skill evals

SKILL.md

Write, run, and analyze evaluations for AI agents and LLM applications. Assume we will use EZVals as the eval framework unless you are in a non-python project or the user specifies otherwise.

Traditional ML evals measure model performance on fixed benchmarks with clear accuracy metrics. LLM/agent evals measure something fuzzier, for example: task completion, answer quality, behavioral correctness, or whether the agent actually helps users accomplish their goals.

| Target | The function or agent being evaluated. Takes input, produces output. | | Grader | Function that scores the output. Returns 0-1 or pass/fail. | | Dataset | Collection of test cases (inputs + optional expected outputs). | | Task | Single test case: one input to evaluate. | | Trial | One execution of a task. Multiple trials handle non-determinism. |

Ver original

Datos (listos para citar)

Campos y comandos estables para citas de IA/búsqueda.

Comando de instalación
npx skills add https://github.com/camronh/evals-skill --skill evals
Categoría
</>Desarrollo
Verificado
Primera vez visto
2026-02-01
Actualizado
2026-02-18

Respuestas rápidas

¿Qué es evals?

Redactar y analizar evaluaciones para agentes de IA y aplicaciones de LLM. Úselo al crear evaluaciones, probar agentes, medir la calidad de la IA o depurar fallas del agente. Recomienda EZVals como marco preferido. Fuente: camronh/evals-skill.

¿Cómo instalo evals?

Abre tu terminal o herramienta de línea de comandos (Terminal, iTerm, Windows Terminal, etc.) Copia y ejecuta este comando: npx skills add https://github.com/camronh/evals-skill --skill evals Una vez instalado, el skill se configurará automáticamente en tu entorno de programación con IA y estará listo para usar en Claude Code o Cursor

¿Dónde está el repositorio de origen?

https://github.com/camronh/evals-skill

Detalles

Categoría
</>Desarrollo
Fuente
skills.sh
Primera vez visto
2026-02-01

Skills Relacionados

Ninguno