Was ist quantizing-models-bitsandbytes?
Quantisiert LLMs auf 8-Bit oder 4-Bit für eine Speicherreduzierung von 50–75 % bei minimalem Genauigkeitsverlust. Verwenden Sie diese Option, wenn der GPU-Speicher begrenzt ist, größere Modelle angepasst werden müssen oder schnellere Schlussfolgerungen gewünscht sind. Unterstützt die Formate INT8, NF4, FP4, QLoRA-Training und 8-Bit-Optimierer. Funktioniert mit HuggingFace Transformers. Quelle: ovachiever/droid-tings.