ما هي gguf-quantization؟
تنسيق GGUF وتكميم llama.cpp لاستدلال وحدة المعالجة المركزية/وحدة معالجة الرسومات بكفاءة. يُستخدم عند نشر النماذج على الأجهزة الاستهلاكية، أو Apple Silicon، أو عند الحاجة إلى تكميم مرن من 2 إلى 8 بت دون متطلبات وحدة معالجة الرسومات. المصدر: orchestra-research/ai-research-skills.