Che cos'è awq-quantization?
Quantizzazione del peso in base all'attivazione per la compressione LLM a 4 bit con accelerazione 3 volte superiore e perdita di precisione minima. Da utilizzare quando si distribuiscono modelli di grandi dimensioni (7B-70B) su memoria GPU limitata, quando è necessaria un'inferenza più rapida rispetto a GPTQ con una migliore conservazione della precisione o per modelli multimodali e ottimizzati per le istruzioni. Vincitore del premio MLSys 2024 Best Paper Award. Fonte: orchestra-research/ai-research-skills.