quantizing-models-bitsandbytes이란?
정확도 손실을 최소화하면서 메모리를 50~75% 줄이기 위해 LLM을 8비트 또는 4비트로 양자화합니다. GPU 메모리가 제한되어 있거나, 더 큰 모델에 적합해야 하거나, 더 빠른 추론을 원하는 경우에 사용하세요. INT8, NF4, FP4 형식, QLoRA 교육 및 8비트 최적화 프로그램을 지원합니다. HuggingFace Transformers와 함께 작동합니다. 출처: ovachiever/droid-tings.