ما هي quantizing-models-bitsandbytes؟
يقوم بتكميم LLMs إلى 8 بت أو 4 بت لتقليل الذاكرة بنسبة 50-75٪ مع الحد الأدنى من فقدان الدقة. يُستخدم عندما تكون ذاكرة وحدة معالجة الرسومات محدودة، أو تحتاج إلى ملاءمة نماذج أكبر، أو تريد استنتاجًا أسرع. يدعم تنسيقات INT8 وNF4 وFP4 وتدريب QLoRA ومحسنات 8 بت. يعمل مع محولات HuggingFace. المصدر: orchestra-research/ai-research-skills.