AISBench Benchmark is a model evaluation tool built based on OpenCompass. It supports evaluation scenarios for both accuracy and performance testing of AI models on Ascend NPU.
| Accuracy Evaluation | Model accuracy on text/multimodal datasets | | Performance Evaluation | Latency, throughput, stress testing | | Steady-State Performance | Obtain true optimal system performance | | Real Traffic Simulation | Simulate real business traffic patterns | | Multi-turn Dialogue | Evaluate multi-turn conversation models |
| Function Call (BFCL) | Function calling capability evaluation |
AISBench 벤치마크 - Ascend NPU용 AI 모델 평가 도구입니다. 정확도 평가(텍스트, 다중 모드 데이터 세트에 대한 서비스/로컬 모델), 성능 평가(대기 시간, 처리량, 스트레스 테스트, 정상 상태, 실제 트래픽 시뮬레이션), vLLM/Triton 추론 서비스, 15개 이상의 벤치마크(MMLU, GSM8K, MMMU, docvqa, ocrbench_v2 등), 다중 회전 대화, 함수 호출(BFCL) 및 사용자 정의 데이터 세트를 지원합니다. 출처: ascend-ai-coding/awesome-ascend-skills.