Che cos'è llama-cpp?
Esegue l'inferenza LLM su CPU, Apple Silicon e GPU consumer senza hardware NVIDIA. Da utilizzare per la distribuzione edge, Mac M1/M2/M3, GPU AMD/Intel o quando CUDA non è disponibile. Supporta la quantizzazione GGUF (1,5-8 bit) per una memoria ridotta e una velocità 4-10 volte maggiore rispetto a PyTorch sulla CPU. Fonte: ovachiever/droid-tings.