Что такое gguf-quantization?
Формат GGUF и квантование llama.cpp для эффективного вывода CPU/GPU. Используйте при развертывании моделей на потребительском оборудовании Apple Silicon или при необходимости гибкого квантования от 2 до 8 бит без требований к графическому процессору. Источник: orchestra-research/ai-research-skills.