awq-quantization

Name: awq-quantization
Author: orchestra-research

✓

orchestra-research/ai-research-skills

Quantizzazione del peso in base all'attivazione per la compressione LLM a 4 bit con accelerazione 3 volte superiore e perdita di precisione minima. Da utilizzare quando si distribuiscono modelli di grandi dimensioni (7B-70B) su memoria GPU limitata, quando è necessaria un'inferenza più rapida rispetto a GPTQ con una migliore conservazione della precisione o per modelli multimodali e ottimizzati per le istruzioni. Vincitore del premio MLSys 2024 Best Paper Award.

orchestra-research·awq·quantization

41Installazioni·2Tendenza·@orchestra-research