·eval-audit
{}

eval-audit

Controlla una pipeline di valutazione LLM e problemi superficiali: analisi degli errori mancanti, giudici non convalidati, metriche di vanità, ecc. Da utilizzare quando si eredita un sistema di valutazione, quando non si è sicuri che le valutazioni siano affidabili o come punto di partenza quando non esiste un'infrastruttura di valutazione. NON utilizzare quando l'obiettivo è creare un nuovo valutatore da zero (utilizzare invece l'analisi degli errori, il prompt del giudice di scrittura o il valutatore di convalida).

81Installazioni·2Tendenza·@hamelsmu

Installazione

$npx skills add https://github.com/hamelsmu/evals-skills --skill eval-audit

Come installare eval-audit

Installa rapidamente la skill AI eval-audit nel tuo ambiente di sviluppo tramite riga di comando

  1. Apri il terminale: Apri il tuo terminale o strumento da riga di comando (Terminal, iTerm, Windows Terminal, ecc.)
  2. Esegui il comando di installazione: Copia ed esegui questo comando: npx skills add https://github.com/hamelsmu/evals-skills --skill eval-audit
  3. Verifica l'installazione: Dopo l'installazione, la skill verrà configurata automaticamente nel tuo ambiente AI di coding e sarà pronta all'uso in Claude Code, Cursor o OpenClaw

Fonte: hamelsmu/evals-skills.

Inspect an LLM eval pipeline and produce a prioritized list of problems with concrete next steps.

Access to eval artifacts (traces, evaluator configs, judge prompts, labeled data) via an observability MCP server or local files. If none exist, skip to "No Eval Infrastructure."

Check whether the user has an observability MCP server connected (Phoenix, Braintrust, LangSmith, Truesight or similar). If available, use it to pull traces, evaluator definitions, and experiment results. If not, ask for local files: CSVs, JSON trace exports, notebooks, or evaluation scripts.

Controlla una pipeline di valutazione LLM e problemi superficiali: analisi degli errori mancanti, giudici non convalidati, metriche di vanità, ecc. Da utilizzare quando si eredita un sistema di valutazione, quando non si è sicuri che le valutazioni siano affidabili o come punto di partenza quando non esiste un'infrastruttura di valutazione. NON utilizzare quando l'obiettivo è creare un nuovo valutatore da zero (utilizzare invece l'analisi degli errori, il prompt del giudice di scrittura o il valutatore di convalida). Fonte: hamelsmu/evals-skills.

Fatti (pronti per citazione)

Campi e comandi stabili per citazioni AI/ricerca.

Comando di installazione
npx skills add https://github.com/hamelsmu/evals-skills --skill eval-audit
Categoria
{}Analisi
Verificato
Prima apparizione
2026-03-04
Aggiornato
2026-03-11

Browse more skills from hamelsmu/evals-skills

Risposte rapide

Che cos'è eval-audit?

Controlla una pipeline di valutazione LLM e problemi superficiali: analisi degli errori mancanti, giudici non convalidati, metriche di vanità, ecc. Da utilizzare quando si eredita un sistema di valutazione, quando non si è sicuri che le valutazioni siano affidabili o come punto di partenza quando non esiste un'infrastruttura di valutazione. NON utilizzare quando l'obiettivo è creare un nuovo valutatore da zero (utilizzare invece l'analisi degli errori, il prompt del giudice di scrittura o il valutatore di convalida). Fonte: hamelsmu/evals-skills.

Come installo eval-audit?

Apri il tuo terminale o strumento da riga di comando (Terminal, iTerm, Windows Terminal, ecc.) Copia ed esegui questo comando: npx skills add https://github.com/hamelsmu/evals-skills --skill eval-audit Dopo l'installazione, la skill verrà configurata automaticamente nel tuo ambiente AI di coding e sarà pronta all'uso in Claude Code, Cursor o OpenClaw

Dov'è il repository sorgente?

https://github.com/hamelsmu/evals-skills