·llm-as-a-judge
</>

llm-as-a-judge

Costruisci, convalida e distribuisci valutatori LLM-as-Judge per la valutazione automatizzata della qualità dei risultati della pipeline LLM. Utilizza questa competenza ogni volta che l'utente desidera: creare un valutatore automatizzato per modalità di fallimento soggettive o sfumate, scrivere un prompt dell'arbitro per la valutazione Pass/Fail, dividere i dati etichettati per lo sviluppo degli arbitri, misurare l'allineamento degli arbitri (TPR/TNR), stimare i tassi di successo reali con la correzione dei bias o impostare pipeline di valutazione CI. Si attiva anche quando l'utente menziona "prompt di valutazione", "valutazione automatizzata", "valutatore LLM", "prompt di valutazione", "metriche di allineamento", "tasso di veri positivi" o desidera passare dalla revisione manuale della traccia alla valutazione automatizzata. Questa competenza copre l'intero ciclo di vita: progettazione tempestiva → suddivisione dei dati → perfezionamento iterativo → stima del tasso di successo.

8Installazioni·0Tendenza·@maragudk

Installazione

$npx skills add https://github.com/maragudk/evals-skills --skill llm-as-a-judge

Come installare llm-as-a-judge

Installa rapidamente la skill AI llm-as-a-judge nel tuo ambiente di sviluppo tramite riga di comando

  1. Apri il terminale: Apri il tuo terminale o strumento da riga di comando (Terminal, iTerm, Windows Terminal, ecc.)
  2. Esegui il comando di installazione: Copia ed esegui questo comando: npx skills add https://github.com/maragudk/evals-skills --skill llm-as-a-judge
  3. Verifica l'installazione: Dopo l'installazione, la skill verrà configurata automaticamente nel tuo ambiente AI di coding e sarà pronta all'uso in Claude Code, Cursor o OpenClaw

Fonte: maragudk/evals-skills.

Build reliable automated evaluators that use an LLM to judge the outputs of another LLM pipeline. Each judge targets a single, binary (Pass/Fail) failure mode identified during error analysis.

Use code-based evaluators when the failure is objective and deterministic:

Each failure mode gets its own dedicated evaluator. Never combine multiple criteria into a single judge prompt—this introduces ambiguity and makes diagnosis harder.

Costruisci, convalida e distribuisci valutatori LLM-as-Judge per la valutazione automatizzata della qualità dei risultati della pipeline LLM. Utilizza questa competenza ogni volta che l'utente desidera: creare un valutatore automatizzato per modalità di fallimento soggettive o sfumate, scrivere un prompt dell'arbitro per la valutazione Pass/Fail, dividere i dati etichettati per lo sviluppo degli arbitri, misurare l'allineamento degli arbitri (TPR/TNR), stimare i tassi di successo reali con la correzione dei bias o impostare pipeline di valutazione CI. Si attiva anche quando l'utente menziona "prompt di valutazione", "valutazione automatizzata", "valutatore LLM", "prompt di valutazione", "metriche di allineamento", "tasso di veri positivi" o desidera passare dalla revisione manuale della traccia alla valutazione automatizzata. Questa competenza copre l'intero ciclo di vita: progettazione tempestiva → suddivisione dei dati → perfezionamento iterativo → stima del tasso di successo. Fonte: maragudk/evals-skills.

Fatti (pronti per citazione)

Campi e comandi stabili per citazioni AI/ricerca.

Comando di installazione
npx skills add https://github.com/maragudk/evals-skills --skill llm-as-a-judge
Categoria
</>Sviluppo
Verificato
Prima apparizione
2026-02-22
Aggiornato
2026-03-11

Browse more skills from maragudk/evals-skills

Risposte rapide

Che cos'è llm-as-a-judge?

Costruisci, convalida e distribuisci valutatori LLM-as-Judge per la valutazione automatizzata della qualità dei risultati della pipeline LLM. Utilizza questa competenza ogni volta che l'utente desidera: creare un valutatore automatizzato per modalità di fallimento soggettive o sfumate, scrivere un prompt dell'arbitro per la valutazione Pass/Fail, dividere i dati etichettati per lo sviluppo degli arbitri, misurare l'allineamento degli arbitri (TPR/TNR), stimare i tassi di successo reali con la correzione dei bias o impostare pipeline di valutazione CI. Si attiva anche quando l'utente menziona "prompt di valutazione", "valutazione automatizzata", "valutatore LLM", "prompt di valutazione", "metriche di allineamento", "tasso di veri positivi" o desidera passare dalla revisione manuale della traccia alla valutazione automatizzata. Questa competenza copre l'intero ciclo di vita: progettazione tempestiva → suddivisione dei dati → perfezionamento iterativo → stima del tasso di successo. Fonte: maragudk/evals-skills.

Come installo llm-as-a-judge?

Apri il tuo terminale o strumento da riga di comando (Terminal, iTerm, Windows Terminal, ecc.) Copia ed esegui questo comando: npx skills add https://github.com/maragudk/evals-skills --skill llm-as-a-judge Dopo l'installazione, la skill verrà configurata automaticamente nel tuo ambiente AI di coding e sarà pronta all'uso in Claude Code, Cursor o OpenClaw

Dov'è il repository sorgente?

https://github.com/maragudk/evals-skills

Dettagli

Categoria
</>Sviluppo
Fonte
skills.sh
Prima apparizione
2026-02-22