Che cos'è quantizing-models-bitsandbytes?
Quantizza gli LLM a 8 bit o 4 bit per una riduzione della memoria del 50-75% con una perdita di precisione minima. Da utilizzare quando la memoria della GPU è limitata, è necessario adattarsi a modelli più grandi o si desidera un'inferenza più rapida. Supporta i formati INT8, NF4, FP4, formazione QLoRA e ottimizzatori a 8 bit. Funziona con i trasformatori HuggingFace. Fonte: orchestra-research/ai-research-skills.