AISBench Benchmark is a model evaluation tool built based on OpenCompass. It supports evaluation scenarios for both accuracy and performance testing of AI models on Ascend NPU.
| Accuracy Evaluation | Model accuracy on text/multimodal datasets | | Performance Evaluation | Latency, throughput, stress testing | | Steady-State Performance | Obtain true optimal system performance | | Real Traffic Simulation | Simulate real business traffic patterns | | Multi-turn Dialogue | Evaluate multi-turn conversation models |
| Function Call (BFCL) | Function calling capability evaluation |
AISBench Benchmark: strumento di valutazione del modello AI per Ascend NPU. Supporta la valutazione dell'accuratezza (modelli di servizio/locali su testo, set di dati multimodali), valutazione delle prestazioni (latenza, throughput, stress test, stato stazionario, simulazione del traffico reale), servizi di inferenza vLLM/Triton, oltre 15 benchmark (MMLU, GSM8K, MMMU, docvqa, ocrbench_v2, ecc.), dialogo multigiro, chiamata di funzione (BFCL) e set di dati personalizzati. Fonte: ascend-ai-coding/awesome-ascend-skills.