·awq-quantization
</>

awq-quantization

Весовое квантование с учетом активации для 4-битного LLM-сжатия с трехкратным ускорением и минимальной потерей точности. Используйте при развертывании больших моделей (7B–70B) на ограниченной памяти графического процессора, когда вам нужен более быстрый вывод, чем GPTQ, с лучшим сохранением точности, или для настраиваемых инструкций и мультимодальных моделей. Победитель премии MLSys за лучшую бумагу 2024 года.

41Установки·2Тренд·@orchestra-research

Установка

$npx skills add https://github.com/orchestra-research/ai-research-skills --skill awq-quantization

Как установить awq-quantization

Быстро установите AI-навык awq-quantization в вашу среду разработки через командную строку

  1. Откройте терминал: Откройте терминал или инструмент командной строки (Terminal, iTerm, Windows Terminal и т.д.)
  2. Выполните команду установки: Скопируйте и выполните эту команду: npx skills add https://github.com/orchestra-research/ai-research-skills --skill awq-quantization
  3. Проверьте установку: После установки навык будет автоматически настроен в вашей AI-среде разработки и готов к использованию в Claude Code, Cursor или OpenClaw

Источник: orchestra-research/ai-research-skills.

4-bit quantization that preserves salient weights based on activation patterns, achieving 3x speedup with minimal accuracy loss.

Timing: 10-15 min for 7B, 1 hour for 70B models.

| Speedup (4-bit) | 2.5-3x | 2x | 1.5x | | Accuracy loss | <5% | 5-10% | 5-15% | | Calibration | Minimal (128-1K tokens) | More extensive | None | | Overfitting risk | Low | Higher | N/A | | Best for | Production inference | GPU inference | Easy integration | | vLLM support | Native | Yes | Limited |

Весовое квантование с учетом активации для 4-битного LLM-сжатия с трехкратным ускорением и минимальной потерей точности. Используйте при развертывании больших моделей (7B–70B) на ограниченной памяти графического процессора, когда вам нужен более быстрый вывод, чем GPTQ, с лучшим сохранением точности, или для настраиваемых инструкций и мультимодальных моделей. Победитель премии MLSys за лучшую бумагу 2024 года. Источник: orchestra-research/ai-research-skills.

Факты (для цитирования)

Стабильные поля и команды для ссылок в AI/поиске.

Команда установки
npx skills add https://github.com/orchestra-research/ai-research-skills --skill awq-quantization
Категория
</>Разработка
Проверено
Впервые замечено
2026-02-11
Обновлено
2026-03-10

Browse more skills from orchestra-research/ai-research-skills

Короткие ответы

Что такое awq-quantization?

Весовое квантование с учетом активации для 4-битного LLM-сжатия с трехкратным ускорением и минимальной потерей точности. Используйте при развертывании больших моделей (7B–70B) на ограниченной памяти графического процессора, когда вам нужен более быстрый вывод, чем GPTQ, с лучшим сохранением точности, или для настраиваемых инструкций и мультимодальных моделей. Победитель премии MLSys за лучшую бумагу 2024 года. Источник: orchestra-research/ai-research-skills.

Как установить awq-quantization?

Откройте терминал или инструмент командной строки (Terminal, iTerm, Windows Terminal и т.д.) Скопируйте и выполните эту команду: npx skills add https://github.com/orchestra-research/ai-research-skills --skill awq-quantization После установки навык будет автоматически настроен в вашей AI-среде разработки и готов к использованию в Claude Code, Cursor или OpenClaw

Где находится исходный репозиторий?

https://github.com/orchestra-research/ai-research-skills

Детали

Категория
</>Разработка
Источник
skills.sh
Впервые замечено
2026-02-11