Что такое llama-cpp?
Выполняет вывод LLM на ЦП, Apple Silicon и потребительских графических процессорах без оборудования NVIDIA. Используйте для периферийного развертывания, компьютеров Mac M1/M2/M3, графических процессоров AMD/Intel или когда CUDA недоступна. Поддерживает квантование GGUF (1,5–8 бит) для уменьшения объема памяти и ускорения в 4–10 раз по сравнению с PyTorch на ЦП. Источник: ovachiever/droid-tings.