·llm-as-a-judge
</>

llm-as-a-judge

Erstellen, validieren und implementieren Sie LLM-as-Judge-Evaluatoren für die automatisierte Qualitätsbewertung der LLM-Pipeline-Ergebnisse. Verwenden Sie diese Fertigkeit, wann immer der Benutzer einen automatisierten Bewerter für subjektive oder nuancierte Fehlermodi erstellen möchte, eine Aufforderung zur Gut/Schlecht-Beurteilung verfassen, beschriftete Daten für die Gutachterentwicklung aufteilen, die Richterausrichtung (TPR/TNR) messen, echte Erfolgsraten mit Bias-Korrektur schätzen oder CI-Bewertungspipelines einrichten möchte. Wird auch ausgelöst, wenn der Benutzer „Beurteilungsaufforderung“, „automatisierte Bewertung“, „LLM-Bewerter“, „Bewertungsaufforderung“, „Ausrichtungsmetriken“, „True-Positive-Rate“ erwähnt oder von der manuellen Trace-Überprüfung zur automatisierten Bewertung wechseln möchte. Diese Fähigkeit deckt den gesamten Lebenszyklus ab: Prompt-Design → Datenaufteilung → iterative Verfeinerung → Erfolgsratenschätzung.

8Installationen·0Trend·@maragudk

Installation

$npx skills add https://github.com/maragudk/evals-skills --skill llm-as-a-judge

So installieren Sie llm-as-a-judge

Installieren Sie den KI-Skill llm-as-a-judge schnell in Ihrer Entwicklungsumgebung über die Kommandozeile

  1. Terminal öffnen: Öffnen Sie Ihr Terminal oder Kommandozeilen-Tool (Terminal, iTerm, Windows Terminal, etc.)
  2. Installationsbefehl ausführen: Kopieren Sie diesen Befehl und führen Sie ihn aus: npx skills add https://github.com/maragudk/evals-skills --skill llm-as-a-judge
  3. Installation überprüfen: Nach der Installation wird der Skill automatisch in Ihrer KI-Programmierumgebung konfiguriert und ist bereit zur Verwendung in Claude Code, Cursor oder OpenClaw

Quelle: maragudk/evals-skills.

Build reliable automated evaluators that use an LLM to judge the outputs of another LLM pipeline. Each judge targets a single, binary (Pass/Fail) failure mode identified during error analysis.

Use code-based evaluators when the failure is objective and deterministic:

Each failure mode gets its own dedicated evaluator. Never combine multiple criteria into a single judge prompt—this introduces ambiguity and makes diagnosis harder.

Erstellen, validieren und implementieren Sie LLM-as-Judge-Evaluatoren für die automatisierte Qualitätsbewertung der LLM-Pipeline-Ergebnisse. Verwenden Sie diese Fertigkeit, wann immer der Benutzer einen automatisierten Bewerter für subjektive oder nuancierte Fehlermodi erstellen möchte, eine Aufforderung zur Gut/Schlecht-Beurteilung verfassen, beschriftete Daten für die Gutachterentwicklung aufteilen, die Richterausrichtung (TPR/TNR) messen, echte Erfolgsraten mit Bias-Korrektur schätzen oder CI-Bewertungspipelines einrichten möchte. Wird auch ausgelöst, wenn der Benutzer „Beurteilungsaufforderung“, „automatisierte Bewertung“, „LLM-Bewerter“, „Bewertungsaufforderung“, „Ausrichtungsmetriken“, „True-Positive-Rate“ erwähnt oder von der manuellen Trace-Überprüfung zur automatisierten Bewertung wechseln möchte. Diese Fähigkeit deckt den gesamten Lebenszyklus ab: Prompt-Design → Datenaufteilung → iterative Verfeinerung → Erfolgsratenschätzung. Quelle: maragudk/evals-skills.

Fakten (zitierbereit)

Stabile Felder und Befehle für KI/Such-Zitate.

Installationsbefehl
npx skills add https://github.com/maragudk/evals-skills --skill llm-as-a-judge
Kategorie
</>Entwicklung
Verifiziert
Erstes Auftreten
2026-02-22
Aktualisiert
2026-03-11

Browse more skills from maragudk/evals-skills

Schnelle Antworten

Was ist llm-as-a-judge?

Erstellen, validieren und implementieren Sie LLM-as-Judge-Evaluatoren für die automatisierte Qualitätsbewertung der LLM-Pipeline-Ergebnisse. Verwenden Sie diese Fertigkeit, wann immer der Benutzer einen automatisierten Bewerter für subjektive oder nuancierte Fehlermodi erstellen möchte, eine Aufforderung zur Gut/Schlecht-Beurteilung verfassen, beschriftete Daten für die Gutachterentwicklung aufteilen, die Richterausrichtung (TPR/TNR) messen, echte Erfolgsraten mit Bias-Korrektur schätzen oder CI-Bewertungspipelines einrichten möchte. Wird auch ausgelöst, wenn der Benutzer „Beurteilungsaufforderung“, „automatisierte Bewertung“, „LLM-Bewerter“, „Bewertungsaufforderung“, „Ausrichtungsmetriken“, „True-Positive-Rate“ erwähnt oder von der manuellen Trace-Überprüfung zur automatisierten Bewertung wechseln möchte. Diese Fähigkeit deckt den gesamten Lebenszyklus ab: Prompt-Design → Datenaufteilung → iterative Verfeinerung → Erfolgsratenschätzung. Quelle: maragudk/evals-skills.

Wie installiere ich llm-as-a-judge?

Öffnen Sie Ihr Terminal oder Kommandozeilen-Tool (Terminal, iTerm, Windows Terminal, etc.) Kopieren Sie diesen Befehl und führen Sie ihn aus: npx skills add https://github.com/maragudk/evals-skills --skill llm-as-a-judge Nach der Installation wird der Skill automatisch in Ihrer KI-Programmierumgebung konfiguriert und ist bereit zur Verwendung in Claude Code, Cursor oder OpenClaw

Wo ist das Quell-Repository?

https://github.com/maragudk/evals-skills

Details

Kategorie
</>Entwicklung
Quelle
skills.sh
Erstes Auftreten
2026-02-22