awq-quantization

Name: awq-quantization
Author: orchestra-research

✓

orchestra-research/ai-research-skills

تقدير الوزن المدرك للتنشيط لضغط LLM 4 بت مع تسريع 3x والحد الأدنى من فقدان الدقة. يُستخدم عند نشر نماذج كبيرة (7B-70B) على ذاكرة GPU محدودة، عندما تحتاج إلى استدلال أسرع من GPTQ مع الحفاظ على الدقة بشكل أفضل، أو للنماذج المضبوطة للتعليمات والمتعددة الوسائط. الحائز على جائزة MLSys 2024 لأفضل ورقة.

orchestra-research·awq·quantization

41التثبيتات·2الرائج·@orchestra-research