model-serving
✓Déploiement de modèles LLM et ML pour l'inférence. À utiliser lors de la diffusion de modèles en production, de la création d'API d'IA ou de l'optimisation de l'inférence. Couvre vLLM (service LLM), TensorRT-LLM (optimisation GPU), Ollama (local), BentoML (déploiement ML), Triton (multimodèle), LangChain (orchestration), LlamaIndex (RAG) et les modèles de streaming.
Installation
SKILL.md
Deploy LLM and ML models for production inference with optimized serving engines, streaming response patterns, and orchestration frameworks. Focuses on self-hosted model serving, GPU optimization, and integration with frontend applications.
This skill provides the backend serving layer for the ai-chat skill.
See references/langchain-orchestration.md and examples/langchain-rag-qdrant/ for complete patterns.
Déploiement de modèles LLM et ML pour l'inférence. À utiliser lors de la diffusion de modèles en production, de la création d'API d'IA ou de l'optimisation de l'inférence. Couvre vLLM (service LLM), TensorRT-LLM (optimisation GPU), Ollama (local), BentoML (déploiement ML), Triton (multimodèle), LangChain (orchestration), LlamaIndex (RAG) et les modèles de streaming. Source : ancoleman/ai-design-components.
Faits (prêts à citer)
Champs et commandes stables pour les citations IA/recherche.
- Commande d'installation
npx skills add https://github.com/ancoleman/ai-design-components --skill model-serving- Catégorie
- </>Développement
- Vérifié
- ✓
- Première apparition
- 2026-02-01
- Mis à jour
- 2026-02-18
Réponses rapides
Qu'est-ce que model-serving ?
Déploiement de modèles LLM et ML pour l'inférence. À utiliser lors de la diffusion de modèles en production, de la création d'API d'IA ou de l'optimisation de l'inférence. Couvre vLLM (service LLM), TensorRT-LLM (optimisation GPU), Ollama (local), BentoML (déploiement ML), Triton (multimodèle), LangChain (orchestration), LlamaIndex (RAG) et les modèles de streaming. Source : ancoleman/ai-design-components.
Comment installer model-serving ?
Ouvrez votre terminal ou outil de ligne de commande (Terminal, iTerm, Windows Terminal, etc.) Copiez et exécutez cette commande : npx skills add https://github.com/ancoleman/ai-design-components --skill model-serving Une fois installé, le skill sera automatiquement configuré dans votre environnement de programmation IA et prêt à être utilisé dans Claude Code ou Cursor
Où se trouve le dépôt source ?
https://github.com/ancoleman/ai-design-components
Détails
- Catégorie
- </>Développement
- Source
- skills.sh
- Première apparition
- 2026-02-01