·validate-evaluator
{}

validate-evaluator

Calibre un juez de LLM frente a etiquetas humanas mediante divisiones de datos, TPR/TNR y corrección de sesgos. Úselo después de escribir un mensaje de juez (write-judge-prompt) cuando necesite verificar la alineación antes de confiar en sus resultados. NO lo use para evaluadores basados ​​en código (esos son deterministas; pruebe con pruebas unitarias estándar).

74Instalaciones·3Tendencia·@hamelsmu

Instalación

$npx skills add https://github.com/hamelsmu/evals-skills --skill validate-evaluator

Cómo instalar validate-evaluator

Instala rápidamente el skill de IA validate-evaluator en tu entorno de desarrollo mediante línea de comandos

  1. Abrir Terminal: Abre tu terminal o herramienta de línea de comandos (Terminal, iTerm, Windows Terminal, etc.)
  2. Ejecutar comando de instalación: Copia y ejecuta este comando: npx skills add https://github.com/hamelsmu/evals-skills --skill validate-evaluator
  3. Verificar instalación: Una vez instalado, el skill se configurará automáticamente en tu entorno de programación con IA y estará listo para usar en Claude Code, Cursor u OpenClaw

Fuente: hamelsmu/evals-skills.

SKILL.md

Ver original

| Training | 10-20% (10-20 examples) | Source of few-shot examples for the judge prompt | Only clear-cut Pass and Fail cases. Used directly in the prompt. | | Dev | 40-45% (40-45 examples) | Iterative evaluator refinement | Never include in the prompt. Evaluate against repeatedly. |

| Test | 40-45% (40-45 examples) | Final unbiased accuracy measurement | Do NOT look at during development. Used once at the end. |

Target: 30-50 examples of each class (Pass and Fail) across dev and test combined. Use balanced splits even if real-world prevalence is skewed — you need enough Fail examples to measure TNR reliably.

Calibre un juez de LLM frente a etiquetas humanas mediante divisiones de datos, TPR/TNR y corrección de sesgos. Úselo después de escribir un mensaje de juez (write-judge-prompt) cuando necesite verificar la alineación antes de confiar en sus resultados. NO lo use para evaluadores basados ​​en código (esos son deterministas; pruebe con pruebas unitarias estándar). Fuente: hamelsmu/evals-skills.

Datos (listos para citar)

Campos y comandos estables para citas de IA/búsqueda.

Comando de instalación
npx skills add https://github.com/hamelsmu/evals-skills --skill validate-evaluator
Categoría
{}Análisis de Datos
Verificado
Primera vez visto
2026-03-04
Actualizado
2026-03-10

Browse more skills from hamelsmu/evals-skills

Respuestas rápidas

¿Qué es validate-evaluator?

Calibre un juez de LLM frente a etiquetas humanas mediante divisiones de datos, TPR/TNR y corrección de sesgos. Úselo después de escribir un mensaje de juez (write-judge-prompt) cuando necesite verificar la alineación antes de confiar en sus resultados. NO lo use para evaluadores basados ​​en código (esos son deterministas; pruebe con pruebas unitarias estándar). Fuente: hamelsmu/evals-skills.

¿Cómo instalo validate-evaluator?

Abre tu terminal o herramienta de línea de comandos (Terminal, iTerm, Windows Terminal, etc.) Copia y ejecuta este comando: npx skills add https://github.com/hamelsmu/evals-skills --skill validate-evaluator Una vez instalado, el skill se configurará automáticamente en tu entorno de programación con IA y estará listo para usar en Claude Code, Cursor u OpenClaw

¿Dónde está el repositorio de origen?

https://github.com/hamelsmu/evals-skills