¿Qué es llm-as-a-judge?
Cree, valide e implemente evaluadores de LLM como juez para una evaluación de calidad automatizada de los resultados del proceso de LLM. Utilice esta habilidad siempre que el usuario quiera: crear un evaluador automatizado para modos de falla subjetivos o matizados, escribir un mensaje de juez para la evaluación de Aprobado/Reprobado, dividir datos etiquetados para el desarrollo de jueces, medir la alineación de los jueces (TPR/TNR), estimar tasas de éxito reales con corrección de sesgos o configurar canales de evaluación de CI. También se activa cuando el usuario menciona "solicitud de evaluación", "evaluación automatizada", "evaluador LLM", "solicitud de calificación", "métricas de alineación", "tasa de verdaderos positivos" o desea pasar de la revisión de seguimiento manual a la evaluación automatizada. Esta habilidad cubre el ciclo de vida completo: diseño rápido → división de datos → refinamiento iterativo → estimación de la tasa de éxito. Fuente: maragudk/evals-skills.