Master comprehensive evaluation strategies for LLM applications, from automated metrics to human evaluation and A/B testing.
Implementa strategie di valutazione complete per le applicazioni LLM utilizzando metriche automatizzate, feedback umano e benchmarking. Da utilizzare per testare le prestazioni LLM, misurare la qualità delle applicazioni IA o stabilire quadri di valutazione. Fonte: wshobson/agents.
Apri il tuo terminale o strumento da riga di comando (Terminal, iTerm, Windows Terminal, ecc.) Copia ed esegui questo comando: npx skills add https://github.com/wshobson/agents --skill llm-evaluation Dopo l'installazione, la skill verrà configurata automaticamente nel tuo ambiente AI di coding e sarà pronta all'uso in Claude Code, Cursor o OpenClaw
Certificata per la sicurezza, per codice affidabile Installazione con un clic e configurazione semplificata Compatibile con Claude Code, Cursor, OpenClaw e altri