evals
✓Schreiben und analysieren Sie Auswertungen für KI-Agenten und LLM-Anwendungen. Wird zum Erstellen von Evaluierungen, zum Testen von Agenten, zum Messen der KI-Qualität oder zum Debuggen von Agentenfehlern verwendet. Empfiehlt EZVals als bevorzugtes Framework.
Installation
SKILL.md
Write, run, and analyze evaluations for AI agents and LLM applications. Assume we will use EZVals as the eval framework unless you are in a non-python project or the user specifies otherwise.
Traditional ML evals measure model performance on fixed benchmarks with clear accuracy metrics. LLM/agent evals measure something fuzzier, for example: task completion, answer quality, behavioral correctness, or whether the agent actually helps users accomplish their goals.
| Target | The function or agent being evaluated. Takes input, produces output. | | Grader | Function that scores the output. Returns 0-1 or pass/fail. | | Dataset | Collection of test cases (inputs + optional expected outputs). | | Task | Single test case: one input to evaluate. | | Trial | One execution of a task. Multiple trials handle non-determinism. |
Fakten (zitierbereit)
Stabile Felder und Befehle für KI/Such-Zitate.
- Installationsbefehl
npx skills add https://github.com/camronh/evals-skill --skill evals- Quelle
- camronh/evals-skill
- Kategorie
- </>Entwicklung
- Verifiziert
- ✓
- Erstes Auftreten
- 2026-02-01
- Aktualisiert
- 2026-02-18
Schnelle Antworten
Was ist evals?
Schreiben und analysieren Sie Auswertungen für KI-Agenten und LLM-Anwendungen. Wird zum Erstellen von Evaluierungen, zum Testen von Agenten, zum Messen der KI-Qualität oder zum Debuggen von Agentenfehlern verwendet. Empfiehlt EZVals als bevorzugtes Framework. Quelle: camronh/evals-skill.
Wie installiere ich evals?
Öffnen Sie Ihr Terminal oder Kommandozeilen-Tool (Terminal, iTerm, Windows Terminal, etc.) Kopieren Sie diesen Befehl und führen Sie ihn aus: npx skills add https://github.com/camronh/evals-skill --skill evals Nach der Installation wird der Skill automatisch in Ihrer KI-Programmierumgebung konfiguriert und ist bereit zur Verwendung in Claude Code oder Cursor
Wo ist das Quell-Repository?
https://github.com/camronh/evals-skill
Details
- Kategorie
- </>Entwicklung
- Quelle
- skills.sh
- Erstes Auftreten
- 2026-02-01