·evaluating-code-models

</>

evaluating-code-models

✓

orchestra-research/ai-research-skills

使用 pass@k 指標跨 HumanEval、MBPP、MultiPL-E 和 15+ 基準評估程式碼產生模型。在對程式碼模型進行基準測試、比較編碼能力、測試多語言支援或測量程式碼產生品質時使用。 HuggingFace 排行榜使用的 BigCode 專案的業界標準。

orchestra-research·evaluating·code·models

15安裝·0熱度·@orchestra-research

安裝

$npx skills add https://github.com/orchestra-research/ai-research-skills --skill evaluating-code-models

詳情

分類: </>開發工具
來源: skills.sh
收錄時間: 2026-02-11

相關 Skills

ml-paper-writing

serving-llms-vllm