Qu'est-ce que llama-cpp ?
Moteur d'inférence LLM local secondaire via llama.cpp. Cette compétence doit être utilisée lors de l'exécution directe de modèles GGUF, du chargement d'adaptateurs LoRA pour Kothar, de l'analyse comparative de la vitesse d'inférence ou de la diffusion de modèles via un serveur Llama. Complète Ollama (qui reste primaire pour le RLAMA et l'usage général). Source : tdimino/claude-code-minoan.