evals
✓Redactar y analizar evaluaciones para agentes de IA y aplicaciones de LLM. Úselo al crear evaluaciones, probar agentes, medir la calidad de la IA o depurar fallas del agente. Recomienda EZVals como marco preferido.
Instalación
SKILL.md
Write, run, and analyze evaluations for AI agents and LLM applications. Assume we will use EZVals as the eval framework unless you are in a non-python project or the user specifies otherwise.
Traditional ML evals measure model performance on fixed benchmarks with clear accuracy metrics. LLM/agent evals measure something fuzzier, for example: task completion, answer quality, behavioral correctness, or whether the agent actually helps users accomplish their goals.
| Target | The function or agent being evaluated. Takes input, produces output. | | Grader | Function that scores the output. Returns 0-1 or pass/fail. | | Dataset | Collection of test cases (inputs + optional expected outputs). | | Task | Single test case: one input to evaluate. | | Trial | One execution of a task. Multiple trials handle non-determinism. |
Datos (listos para citar)
Campos y comandos estables para citas de IA/búsqueda.
- Comando de instalación
npx skills add https://github.com/camronh/evals-skill --skill evals- Fuente
- camronh/evals-skill
- Categoría
- </>Desarrollo
- Verificado
- ✓
- Primera vez visto
- 2026-02-01
- Actualizado
- 2026-02-18
Respuestas rápidas
¿Qué es evals?
Redactar y analizar evaluaciones para agentes de IA y aplicaciones de LLM. Úselo al crear evaluaciones, probar agentes, medir la calidad de la IA o depurar fallas del agente. Recomienda EZVals como marco preferido. Fuente: camronh/evals-skill.
¿Cómo instalo evals?
Abre tu terminal o herramienta de línea de comandos (Terminal, iTerm, Windows Terminal, etc.) Copia y ejecuta este comando: npx skills add https://github.com/camronh/evals-skill --skill evals Una vez instalado, el skill se configurará automáticamente en tu entorno de programación con IA y estará listo para usar en Claude Code o Cursor
¿Dónde está el repositorio de origen?
https://github.com/camronh/evals-skill
Detalles
- Categoría
- </>Desarrollo
- Fuente
- skills.sh
- Primera vez visto
- 2026-02-01