Qu'est-ce que eval-audit ?
Auditez un pipeline d'évaluation LLM et faites apparaître les problèmes : analyse des erreurs manquantes, juges non validés, mesures de vanité, etc. À utiliser lors de l'héritage d'un système d'évaluation, en cas de doute sur la fiabilité des évaluations ou comme point de départ lorsqu'aucune infrastructure d'évaluation n'existe. Ne pas utiliser lorsque l'objectif est de créer un nouvel évaluateur à partir de zéro (utilisez plutôt l'analyse des erreurs, l'invite de jugement d'écriture ou la validation de l'évaluateur). Source : hamelsmu/evals-skills.