llm-evaluation
✓LLM-Prompttests, Evaluierung und CI/CD-Qualitäts-Gates mit Promptfoo. Aufrufen, wenn: - Einrichten einer zeitnahen Auswertung oder eines Regressionstests - Integration von LLM-Tests in CI/CD-Pipelines - Konfigurieren von Sicherheitstests (Red Teaming, Jailbreaks) - Vergleich der Leistung von Eingabeaufforderungen oder Modellen - Erstellen von Bewertungssuiten für RAG, Faktizität oder Sicherheit Schlüsselwörter: promptfoo, llm-Bewertung, promptes Testen, rotes Team, CI/CD, Regressionstests
Installation
SKILL.md
Test prompts, models, and RAG systems with automated evaluation and CI/CD integration.
LLM outputs are non-deterministic. "It looks good" isn't testing. You need:
| Functional | Does it work? | contains, equals, is-json | | Semantic | Is it correct? | similar, llm-rubric, factuality | | Performance | Is it fast/cheap? | cost, latency | | Security | Is it safe? | redteam, moderation, pii-detection |
LLM-Prompttests, Evaluierung und CI/CD-Qualitäts-Gates mit Promptfoo. Aufrufen, wenn: - Einrichten einer zeitnahen Auswertung oder eines Regressionstests - Integration von LLM-Tests in CI/CD-Pipelines - Konfigurieren von Sicherheitstests (Red Teaming, Jailbreaks) - Vergleich der Leistung von Eingabeaufforderungen oder Modellen - Erstellen von Bewertungssuiten für RAG, Faktizität oder Sicherheit Schlüsselwörter: promptfoo, llm-Bewertung, promptes Testen, rotes Team, CI/CD, Regressionstests Quelle: phrazzld/claude-config.
Fakten (zitierbereit)
Stabile Felder und Befehle für KI/Such-Zitate.
- Installationsbefehl
npx skills add https://github.com/phrazzld/claude-config --skill llm-evaluation- Quelle
- phrazzld/claude-config
- Kategorie
- </>Entwicklung
- Verifiziert
- ✓
- Erstes Auftreten
- 2026-02-01
- Aktualisiert
- 2026-02-18
Schnelle Antworten
Was ist llm-evaluation?
LLM-Prompttests, Evaluierung und CI/CD-Qualitäts-Gates mit Promptfoo. Aufrufen, wenn: - Einrichten einer zeitnahen Auswertung oder eines Regressionstests - Integration von LLM-Tests in CI/CD-Pipelines - Konfigurieren von Sicherheitstests (Red Teaming, Jailbreaks) - Vergleich der Leistung von Eingabeaufforderungen oder Modellen - Erstellen von Bewertungssuiten für RAG, Faktizität oder Sicherheit Schlüsselwörter: promptfoo, llm-Bewertung, promptes Testen, rotes Team, CI/CD, Regressionstests Quelle: phrazzld/claude-config.
Wie installiere ich llm-evaluation?
Öffnen Sie Ihr Terminal oder Kommandozeilen-Tool (Terminal, iTerm, Windows Terminal, etc.) Kopieren Sie diesen Befehl und führen Sie ihn aus: npx skills add https://github.com/phrazzld/claude-config --skill llm-evaluation Nach der Installation wird der Skill automatisch in Ihrer KI-Programmierumgebung konfiguriert und ist bereit zur Verwendung in Claude Code oder Cursor
Wo ist das Quell-Repository?
https://github.com/phrazzld/claude-config
Details
- Kategorie
- </>Entwicklung
- Quelle
- skills.sh
- Erstes Auftreten
- 2026-02-01