·llm-evaluation
</>

llm-evaluation

phrazzld/claude-config

LLM-Prompttests, Evaluierung und CI/CD-Qualitäts-Gates mit Promptfoo. Aufrufen, wenn: - Einrichten einer zeitnahen Auswertung oder eines Regressionstests - Integration von LLM-Tests in CI/CD-Pipelines - Konfigurieren von Sicherheitstests (Red Teaming, Jailbreaks) - Vergleich der Leistung von Eingabeaufforderungen oder Modellen - Erstellen von Bewertungssuiten für RAG, Faktizität oder Sicherheit Schlüsselwörter: promptfoo, llm-Bewertung, promptes Testen, rotes Team, CI/CD, Regressionstests

9Installationen·1Trend·@phrazzld

Installation

$npx skills add https://github.com/phrazzld/claude-config --skill llm-evaluation

SKILL.md

Test prompts, models, and RAG systems with automated evaluation and CI/CD integration.

LLM outputs are non-deterministic. "It looks good" isn't testing. You need:

| Functional | Does it work? | contains, equals, is-json | | Semantic | Is it correct? | similar, llm-rubric, factuality | | Performance | Is it fast/cheap? | cost, latency | | Security | Is it safe? | redteam, moderation, pii-detection |

LLM-Prompttests, Evaluierung und CI/CD-Qualitäts-Gates mit Promptfoo. Aufrufen, wenn: - Einrichten einer zeitnahen Auswertung oder eines Regressionstests - Integration von LLM-Tests in CI/CD-Pipelines - Konfigurieren von Sicherheitstests (Red Teaming, Jailbreaks) - Vergleich der Leistung von Eingabeaufforderungen oder Modellen - Erstellen von Bewertungssuiten für RAG, Faktizität oder Sicherheit Schlüsselwörter: promptfoo, llm-Bewertung, promptes Testen, rotes Team, CI/CD, Regressionstests Quelle: phrazzld/claude-config.

Original anzeigen

Fakten (zitierbereit)

Stabile Felder und Befehle für KI/Such-Zitate.

Installationsbefehl
npx skills add https://github.com/phrazzld/claude-config --skill llm-evaluation
Kategorie
</>Entwicklung
Verifiziert
Erstes Auftreten
2026-02-01
Aktualisiert
2026-02-18

Schnelle Antworten

Was ist llm-evaluation?

LLM-Prompttests, Evaluierung und CI/CD-Qualitäts-Gates mit Promptfoo. Aufrufen, wenn: - Einrichten einer zeitnahen Auswertung oder eines Regressionstests - Integration von LLM-Tests in CI/CD-Pipelines - Konfigurieren von Sicherheitstests (Red Teaming, Jailbreaks) - Vergleich der Leistung von Eingabeaufforderungen oder Modellen - Erstellen von Bewertungssuiten für RAG, Faktizität oder Sicherheit Schlüsselwörter: promptfoo, llm-Bewertung, promptes Testen, rotes Team, CI/CD, Regressionstests Quelle: phrazzld/claude-config.

Wie installiere ich llm-evaluation?

Öffnen Sie Ihr Terminal oder Kommandozeilen-Tool (Terminal, iTerm, Windows Terminal, etc.) Kopieren Sie diesen Befehl und führen Sie ihn aus: npx skills add https://github.com/phrazzld/claude-config --skill llm-evaluation Nach der Installation wird der Skill automatisch in Ihrer KI-Programmierumgebung konfiguriert und ist bereit zur Verwendung in Claude Code oder Cursor

Wo ist das Quell-Repository?

https://github.com/phrazzld/claude-config