quantizing-models-bitsandbytes とは?
LLM を 8 ビットまたは 4 ビットに量子化し、精度の損失を最小限に抑えながらメモリを 50 ~ 75% 削減します。 GPU メモリが制限されている場合、より大きなモデルに適合させる必要がある場合、またはより高速な推論が必要な場合に使用します。 INT8、NF4、FP4 フォーマット、QLoRA トレーニング、8 ビット オプティマイザーをサポートします。ハギングフェイストランスフォーマーと連携します。 ソース: ovachiever/droid-tings。