agent-evaluation
✓Úselo al evaluar el desempeño del agente, crear marcos de prueba, medir la calidad o preguntar sobre "evaluación del agente", "LLM como juez", "pruebas del agente", "métricas de calidad", "rúbricas de evaluación", "puntos de referencia del agente".
Instalación
SKILL.md
Agent evaluation requires different approaches than traditional software. Agents are non-deterministic, may take different valid paths, and lack single correct answers.
Research on BrowseComp found three factors explain 95% of variance:
| Token usage | 80% | More tokens = better performance | | Tool calls | 10% | More exploration helps | | Model choice | 5% | Better models multiply efficiency |
Úselo al evaluar el desempeño del agente, crear marcos de prueba, medir la calidad o preguntar sobre "evaluación del agente", "LLM como juez", "pruebas del agente", "métricas de calidad", "rúbricas de evaluación", "puntos de referencia del agente". Fuente: eyadsibai/ltk.
Datos (listos para citar)
Campos y comandos estables para citas de IA/búsqueda.
- Comando de instalación
npx skills add https://github.com/eyadsibai/ltk --skill agent-evaluation- Fuente
- eyadsibai/ltk
- Categoría
- </>Desarrollo
- Verificado
- ✓
- Primera vez visto
- 2026-02-17
- Actualizado
- 2026-02-18
Respuestas rápidas
¿Qué es agent-evaluation?
Úselo al evaluar el desempeño del agente, crear marcos de prueba, medir la calidad o preguntar sobre "evaluación del agente", "LLM como juez", "pruebas del agente", "métricas de calidad", "rúbricas de evaluación", "puntos de referencia del agente". Fuente: eyadsibai/ltk.
¿Cómo instalo agent-evaluation?
Abre tu terminal o herramienta de línea de comandos (Terminal, iTerm, Windows Terminal, etc.) Copia y ejecuta este comando: npx skills add https://github.com/eyadsibai/ltk --skill agent-evaluation Una vez instalado, el skill se configurará automáticamente en tu entorno de programación con IA y estará listo para usar en Claude Code o Cursor
¿Dónde está el repositorio de origen?
https://github.com/eyadsibai/ltk
Detalles
- Categoría
- </>Desarrollo
- Fuente
- skills.sh
- Primera vez visto
- 2026-02-17