Che cos'è eval-audit?
Controlla una pipeline di valutazione LLM e problemi superficiali: analisi degli errori mancanti, giudici non convalidati, metriche di vanità, ecc. Da utilizzare quando si eredita un sistema di valutazione, quando non si è sicuri che le valutazioni siano affidabili o come punto di partenza quando non esiste un'infrastruttura di valutazione. NON utilizzare quando l'obiettivo è creare un nuovo valutatore da zero (utilizzare invece l'analisi degli errori, il prompt del giudice di scrittura o il valutatore di convalida). Fonte: hamelsmu/evals-skills.