ما هي llama-cpp؟
تشغيل استدلال LLM على وحدة المعالجة المركزية (CPU) وApple Silicon ووحدات معالجة الرسومات الاستهلاكية بدون أجهزة NVIDIA. يُستخدم لنشر الحافة، أو أجهزة Mac M1/M2/M3، أو وحدات معالجة الرسومات AMD/Intel، أو عندما لا يكون CUDA متاحًا. يدعم تكميم GGUF (1.5-8 بت) لتقليل الذاكرة وتسريع 4-10× مقابل PyTorch على وحدة المعالجة المركزية. المصدر: ovachiever/droid-tings.