quantizing-models-bitsandbytes

Name: quantizing-models-bitsandbytes
Author: orchestra-research

✓

orchestra-research/ai-research-skills

Quantizza gli LLM a 8 bit o 4 bit per una riduzione della memoria del 50-75% con una perdita di precisione minima. Da utilizzare quando la memoria della GPU è limitata, è necessario adattarsi a modelli più grandi o si desidera un'inferenza più rapida. Supporta i formati INT8, NF4, FP4, formazione QLoRA e ottimizzatori a 8 bit. Funziona con i trasformatori HuggingFace.

orchestra-research·quantizing·models·bitsandbytes

42Installazioni·4Tendenza·@orchestra-research