·evaluating-llms
</>

evaluating-llms

ancoleman/ai-design-components

Bewerten Sie LLM-Systeme mithilfe automatisierter Metriken, LLM-as-Judge und Benchmarks. Verwenden Sie es zum Testen der Prompt-Qualität, zum Validieren von RAG-Pipelines, zum Messen der Sicherheit (Halluzinationen, Bias) oder zum Vergleichen von Modellen für den Produktionseinsatz.

7Installationen·0Trend·@ancoleman

Installation

$npx skills add https://github.com/ancoleman/ai-design-components --skill evaluating-llms

SKILL.md

Evaluate Large Language Model (LLM) systems using automated metrics, LLM-as-judge patterns, and standardized benchmarks to ensure production quality and safety.

| Task Type | Primary Approach | Metrics | Tools |

| Classification (sentiment, intent) | Automated metrics | Accuracy, Precision, Recall, F1 | scikit-learn | | Generation (summaries, creative text) | LLM-as-judge + automated | BLEU, ROUGE, BERTScore, Quality rubric | GPT-4/Claude for judging | | Question Answering | Exact match + semantic similarity | EM, F1, Cosine similarity | Custom evaluators |

Bewerten Sie LLM-Systeme mithilfe automatisierter Metriken, LLM-as-Judge und Benchmarks. Verwenden Sie es zum Testen der Prompt-Qualität, zum Validieren von RAG-Pipelines, zum Messen der Sicherheit (Halluzinationen, Bias) oder zum Vergleichen von Modellen für den Produktionseinsatz. Quelle: ancoleman/ai-design-components.

Original anzeigen

Fakten (zitierbereit)

Stabile Felder und Befehle für KI/Such-Zitate.

Installationsbefehl
npx skills add https://github.com/ancoleman/ai-design-components --skill evaluating-llms
Kategorie
</>Entwicklung
Verifiziert
Erstes Auftreten
2026-02-01
Aktualisiert
2026-02-18

Schnelle Antworten

Was ist evaluating-llms?

Bewerten Sie LLM-Systeme mithilfe automatisierter Metriken, LLM-as-Judge und Benchmarks. Verwenden Sie es zum Testen der Prompt-Qualität, zum Validieren von RAG-Pipelines, zum Messen der Sicherheit (Halluzinationen, Bias) oder zum Vergleichen von Modellen für den Produktionseinsatz. Quelle: ancoleman/ai-design-components.

Wie installiere ich evaluating-llms?

Öffnen Sie Ihr Terminal oder Kommandozeilen-Tool (Terminal, iTerm, Windows Terminal, etc.) Kopieren Sie diesen Befehl und führen Sie ihn aus: npx skills add https://github.com/ancoleman/ai-design-components --skill evaluating-llms Nach der Installation wird der Skill automatisch in Ihrer KI-Programmierumgebung konfiguriert und ist bereit zur Verwendung in Claude Code oder Cursor

Wo ist das Quell-Repository?

https://github.com/ancoleman/ai-design-components