·llm-as-a-judge
</>

llm-as-a-judge

Cree, valide e implemente evaluadores de LLM como juez para una evaluación de calidad automatizada de los resultados del proceso de LLM. Utilice esta habilidad siempre que el usuario quiera: crear un evaluador automatizado para modos de falla subjetivos o matizados, escribir un mensaje de juez para la evaluación de Aprobado/Reprobado, dividir datos etiquetados para el desarrollo de jueces, medir la alineación de los jueces (TPR/TNR), estimar tasas de éxito reales con corrección de sesgos o configurar canales de evaluación de CI. También se activa cuando el usuario menciona "solicitud de evaluación", "evaluación automatizada", "evaluador LLM", "solicitud de calificación", "métricas de alineación", "tasa de verdaderos positivos" o desea pasar de la revisión de seguimiento manual a la evaluación automatizada. Esta habilidad cubre el ciclo de vida completo: diseño rápido → división de datos → refinamiento iterativo → estimación de la tasa de éxito.

8Instalaciones·0Tendencia·@maragudk

Instalación

$npx skills add https://github.com/maragudk/evals-skills --skill llm-as-a-judge

Cómo instalar llm-as-a-judge

Instala rápidamente el skill de IA llm-as-a-judge en tu entorno de desarrollo mediante línea de comandos

  1. Abrir Terminal: Abre tu terminal o herramienta de línea de comandos (Terminal, iTerm, Windows Terminal, etc.)
  2. Ejecutar comando de instalación: Copia y ejecuta este comando: npx skills add https://github.com/maragudk/evals-skills --skill llm-as-a-judge
  3. Verificar instalación: Una vez instalado, el skill se configurará automáticamente en tu entorno de programación con IA y estará listo para usar en Claude Code, Cursor u OpenClaw

Fuente: maragudk/evals-skills.

SKILL.md

Ver original

Build reliable automated evaluators that use an LLM to judge the outputs of another LLM pipeline. Each judge targets a single, binary (Pass/Fail) failure mode identified during error analysis.

Use code-based evaluators when the failure is objective and deterministic:

Each failure mode gets its own dedicated evaluator. Never combine multiple criteria into a single judge prompt—this introduces ambiguity and makes diagnosis harder.

Cree, valide e implemente evaluadores de LLM como juez para una evaluación de calidad automatizada de los resultados del proceso de LLM. Utilice esta habilidad siempre que el usuario quiera: crear un evaluador automatizado para modos de falla subjetivos o matizados, escribir un mensaje de juez para la evaluación de Aprobado/Reprobado, dividir datos etiquetados para el desarrollo de jueces, medir la alineación de los jueces (TPR/TNR), estimar tasas de éxito reales con corrección de sesgos o configurar canales de evaluación de CI. También se activa cuando el usuario menciona "solicitud de evaluación", "evaluación automatizada", "evaluador LLM", "solicitud de calificación", "métricas de alineación", "tasa de verdaderos positivos" o desea pasar de la revisión de seguimiento manual a la evaluación automatizada. Esta habilidad cubre el ciclo de vida completo: diseño rápido → división de datos → refinamiento iterativo → estimación de la tasa de éxito. Fuente: maragudk/evals-skills.

Datos (listos para citar)

Campos y comandos estables para citas de IA/búsqueda.

Comando de instalación
npx skills add https://github.com/maragudk/evals-skills --skill llm-as-a-judge
Categoría
</>Desarrollo
Verificado
Primera vez visto
2026-02-22
Actualizado
2026-03-11

Browse more skills from maragudk/evals-skills

Respuestas rápidas

¿Qué es llm-as-a-judge?

Cree, valide e implemente evaluadores de LLM como juez para una evaluación de calidad automatizada de los resultados del proceso de LLM. Utilice esta habilidad siempre que el usuario quiera: crear un evaluador automatizado para modos de falla subjetivos o matizados, escribir un mensaje de juez para la evaluación de Aprobado/Reprobado, dividir datos etiquetados para el desarrollo de jueces, medir la alineación de los jueces (TPR/TNR), estimar tasas de éxito reales con corrección de sesgos o configurar canales de evaluación de CI. También se activa cuando el usuario menciona "solicitud de evaluación", "evaluación automatizada", "evaluador LLM", "solicitud de calificación", "métricas de alineación", "tasa de verdaderos positivos" o desea pasar de la revisión de seguimiento manual a la evaluación automatizada. Esta habilidad cubre el ciclo de vida completo: diseño rápido → división de datos → refinamiento iterativo → estimación de la tasa de éxito. Fuente: maragudk/evals-skills.

¿Cómo instalo llm-as-a-judge?

Abre tu terminal o herramienta de línea de comandos (Terminal, iTerm, Windows Terminal, etc.) Copia y ejecuta este comando: npx skills add https://github.com/maragudk/evals-skills --skill llm-as-a-judge Una vez instalado, el skill se configurará automáticamente en tu entorno de programación con IA y estará listo para usar en Claude Code, Cursor u OpenClaw

¿Dónde está el repositorio de origen?

https://github.com/maragudk/evals-skills

Detalles

Categoría
</>Desarrollo
Fuente
skills.sh
Primera vez visto
2026-02-22