Qu'est-ce que quantizing-models-bitsandbytes ?
Quantifie les LLM à 8 bits ou 4 bits pour une réduction de mémoire de 50 à 75 % avec une perte de précision minimale. À utiliser lorsque la mémoire GPU est limitée, que vous devez adapter des modèles plus grands ou que vous souhaitez une inférence plus rapide. Prend en charge les formats INT8, NF4, FP4, la formation QLoRA et les optimiseurs 8 bits. Fonctionne avec les transformateurs HuggingFace. Source : ovachiever/droid-tings.