awq-quantization

Name: awq-quantization
Author: orchestra-research

✓

Quantification du poids prenant en compte l'activation pour la compression LLM 4 bits avec une accélération 3x et une perte de précision minimale. À utiliser lors du déploiement de grands modèles (7B-70B) sur une mémoire GPU limitée, lorsque vous avez besoin d'une inférence plus rapide que GPTQ avec une meilleure préservation de la précision, ou pour des modèles multimodaux et optimisés par les instructions. Gagnant du prix du meilleur article MLSys 2024.

orchestra-research·awq·quantization

15Installations·1Tendance·@orchestra-research