·validate-evaluator
{}

validate-evaluator

Kalibrieren Sie einen LLM-Richter anhand menschlicher Etiketten mithilfe von Datenaufteilungen, TPR/TNR und Bias-Korrektur. Verwenden Sie diese Option nach dem Schreiben einer Judge-Eingabeaufforderung (write-judge-prompt), wenn Sie die Ausrichtung überprüfen müssen, bevor Sie deren Ausgaben vertrauen. NICHT für codebasierte Evaluatoren verwenden (diese sind deterministisch; testen Sie mit Standard-Unit-Tests).

74Installationen·3Trend·@hamelsmu

Installation

$npx skills add https://github.com/hamelsmu/evals-skills --skill validate-evaluator

So installieren Sie validate-evaluator

Installieren Sie den KI-Skill validate-evaluator schnell in Ihrer Entwicklungsumgebung über die Kommandozeile

  1. Terminal öffnen: Öffnen Sie Ihr Terminal oder Kommandozeilen-Tool (Terminal, iTerm, Windows Terminal, etc.)
  2. Installationsbefehl ausführen: Kopieren Sie diesen Befehl und führen Sie ihn aus: npx skills add https://github.com/hamelsmu/evals-skills --skill validate-evaluator
  3. Installation überprüfen: Nach der Installation wird der Skill automatisch in Ihrer KI-Programmierumgebung konfiguriert und ist bereit zur Verwendung in Claude Code, Cursor oder OpenClaw

Quelle: hamelsmu/evals-skills.

| Training | 10-20% (10-20 examples) | Source of few-shot examples for the judge prompt | Only clear-cut Pass and Fail cases. Used directly in the prompt. | | Dev | 40-45% (40-45 examples) | Iterative evaluator refinement | Never include in the prompt. Evaluate against repeatedly. |

| Test | 40-45% (40-45 examples) | Final unbiased accuracy measurement | Do NOT look at during development. Used once at the end. |

Target: 30-50 examples of each class (Pass and Fail) across dev and test combined. Use balanced splits even if real-world prevalence is skewed — you need enough Fail examples to measure TNR reliably.

Kalibrieren Sie einen LLM-Richter anhand menschlicher Etiketten mithilfe von Datenaufteilungen, TPR/TNR und Bias-Korrektur. Verwenden Sie diese Option nach dem Schreiben einer Judge-Eingabeaufforderung (write-judge-prompt), wenn Sie die Ausrichtung überprüfen müssen, bevor Sie deren Ausgaben vertrauen. NICHT für codebasierte Evaluatoren verwenden (diese sind deterministisch; testen Sie mit Standard-Unit-Tests). Quelle: hamelsmu/evals-skills.

Fakten (zitierbereit)

Stabile Felder und Befehle für KI/Such-Zitate.

Installationsbefehl
npx skills add https://github.com/hamelsmu/evals-skills --skill validate-evaluator
Kategorie
{}Datenanalyse
Verifiziert
Erstes Auftreten
2026-03-04
Aktualisiert
2026-03-10

Browse more skills from hamelsmu/evals-skills

Schnelle Antworten

Was ist validate-evaluator?

Kalibrieren Sie einen LLM-Richter anhand menschlicher Etiketten mithilfe von Datenaufteilungen, TPR/TNR und Bias-Korrektur. Verwenden Sie diese Option nach dem Schreiben einer Judge-Eingabeaufforderung (write-judge-prompt), wenn Sie die Ausrichtung überprüfen müssen, bevor Sie deren Ausgaben vertrauen. NICHT für codebasierte Evaluatoren verwenden (diese sind deterministisch; testen Sie mit Standard-Unit-Tests). Quelle: hamelsmu/evals-skills.

Wie installiere ich validate-evaluator?

Öffnen Sie Ihr Terminal oder Kommandozeilen-Tool (Terminal, iTerm, Windows Terminal, etc.) Kopieren Sie diesen Befehl und führen Sie ihn aus: npx skills add https://github.com/hamelsmu/evals-skills --skill validate-evaluator Nach der Installation wird der Skill automatisch in Ihrer KI-Programmierumgebung konfiguriert und ist bereit zur Verwendung in Claude Code, Cursor oder OpenClaw

Wo ist das Quell-Repository?

https://github.com/hamelsmu/evals-skills