Что такое awq-quantization?
Весовое квантование с учетом активации для 4-битного LLM-сжатия с трехкратным ускорением и минимальной потерей точности. Используйте при развертывании больших моделей (7B–70B) на ограниченной памяти графического процессора, когда вам нужен более быстрый вывод, чем GPTQ, с лучшим сохранением точности, или для настраиваемых инструкций и мультимодальных моделей. Победитель премии MLSys за лучшую бумагу 2024 года. Источник: orchestra-research/ai-research-skills.