Che cos'è evaluating-code-models?
Valuta i modelli di generazione del codice attraverso i benchmark HumanEval, MBPP, MultiPL-E e oltre 15 con metriche pass@k. Da utilizzare durante l'analisi comparativa dei modelli di codice, il confronto delle capacità di codifica, il test del supporto multilingue o la misurazione della qualità della generazione del codice. Standard di settore del progetto BigCode utilizzato dalle classifiche HuggingFace. Fonte: orchestra-research/ai-research-skills.