ما هي awq-quantization؟
تقدير الوزن المدرك للتنشيط لضغط LLM 4 بت مع تسريع 3x والحد الأدنى من فقدان الدقة. يُستخدم عند نشر نماذج كبيرة (7B-70B) على ذاكرة GPU محدودة، عندما تحتاج إلى استدلال أسرع من GPTQ مع الحفاظ على الدقة بشكل أفضل، أو للنماذج المضبوطة للتعليمات والمتعددة الوسائط. الحائز على جائزة MLSys 2024 لأفضل ورقة. المصدر: orchestra-research/ai-research-skills.