·validate-evaluator
{}

validate-evaluator

Calibra un giudice LLM rispetto alle etichette umane utilizzando la suddivisione dei dati, TPR/TNR e la correzione dei bias. Da utilizzare dopo aver scritto un prompt del giudice (write-judge-prompt) quando è necessario verificare l'allineamento prima di fidarsi dei suoi output. NON utilizzare per valutatori basati su codice (quelli sono deterministici; test con test unitari standard).

74Installazioni·3Tendenza·@hamelsmu

Installazione

$npx skills add https://github.com/hamelsmu/evals-skills --skill validate-evaluator

Come installare validate-evaluator

Installa rapidamente la skill AI validate-evaluator nel tuo ambiente di sviluppo tramite riga di comando

  1. Apri il terminale: Apri il tuo terminale o strumento da riga di comando (Terminal, iTerm, Windows Terminal, ecc.)
  2. Esegui il comando di installazione: Copia ed esegui questo comando: npx skills add https://github.com/hamelsmu/evals-skills --skill validate-evaluator
  3. Verifica l'installazione: Dopo l'installazione, la skill verrà configurata automaticamente nel tuo ambiente AI di coding e sarà pronta all'uso in Claude Code, Cursor o OpenClaw

Fonte: hamelsmu/evals-skills.

| Training | 10-20% (10-20 examples) | Source of few-shot examples for the judge prompt | Only clear-cut Pass and Fail cases. Used directly in the prompt. | | Dev | 40-45% (40-45 examples) | Iterative evaluator refinement | Never include in the prompt. Evaluate against repeatedly. |

| Test | 40-45% (40-45 examples) | Final unbiased accuracy measurement | Do NOT look at during development. Used once at the end. |

Target: 30-50 examples of each class (Pass and Fail) across dev and test combined. Use balanced splits even if real-world prevalence is skewed — you need enough Fail examples to measure TNR reliably.

Calibra un giudice LLM rispetto alle etichette umane utilizzando la suddivisione dei dati, TPR/TNR e la correzione dei bias. Da utilizzare dopo aver scritto un prompt del giudice (write-judge-prompt) quando è necessario verificare l'allineamento prima di fidarsi dei suoi output. NON utilizzare per valutatori basati su codice (quelli sono deterministici; test con test unitari standard). Fonte: hamelsmu/evals-skills.

Fatti (pronti per citazione)

Campi e comandi stabili per citazioni AI/ricerca.

Comando di installazione
npx skills add https://github.com/hamelsmu/evals-skills --skill validate-evaluator
Categoria
{}Analisi
Verificato
Prima apparizione
2026-03-04
Aggiornato
2026-03-10

Browse more skills from hamelsmu/evals-skills

Risposte rapide

Che cos'è validate-evaluator?

Calibra un giudice LLM rispetto alle etichette umane utilizzando la suddivisione dei dati, TPR/TNR e la correzione dei bias. Da utilizzare dopo aver scritto un prompt del giudice (write-judge-prompt) quando è necessario verificare l'allineamento prima di fidarsi dei suoi output. NON utilizzare per valutatori basati su codice (quelli sono deterministici; test con test unitari standard). Fonte: hamelsmu/evals-skills.

Come installo validate-evaluator?

Apri il tuo terminale o strumento da riga di comando (Terminal, iTerm, Windows Terminal, ecc.) Copia ed esegui questo comando: npx skills add https://github.com/hamelsmu/evals-skills --skill validate-evaluator Dopo l'installazione, la skill verrà configurata automaticamente nel tuo ambiente AI di coding e sarà pronta all'uso in Claude Code, Cursor o OpenClaw

Dov'è il repository sorgente?

https://github.com/hamelsmu/evals-skills