Che cos'è llm-as-a-judge?
Costruisci, convalida e distribuisci valutatori LLM-as-Judge per la valutazione automatizzata della qualità dei risultati della pipeline LLM. Utilizza questa competenza ogni volta che l'utente desidera: creare un valutatore automatizzato per modalità di fallimento soggettive o sfumate, scrivere un prompt dell'arbitro per la valutazione Pass/Fail, dividere i dati etichettati per lo sviluppo degli arbitri, misurare l'allineamento degli arbitri (TPR/TNR), stimare i tassi di successo reali con la correzione dei bias o impostare pipeline di valutazione CI. Si attiva anche quando l'utente menziona "prompt di valutazione", "valutazione automatizzata", "valutatore LLM", "prompt di valutazione", "metriche di allineamento", "tasso di veri positivi" o desidera passare dalla revisione manuale della traccia alla valutazione automatizzata. Questa competenza copre l'intero ciclo di vita: progettazione tempestiva → suddivisione dei dati → perfezionamento iterativo → stima del tasso di successo. Fonte: maragudk/evals-skills.