·model-serving
</>

model-serving

ancoleman/ai-design-components

Déploiement de modèles LLM et ML pour l'inférence. À utiliser lors de la diffusion de modèles en production, de la création d'API d'IA ou de l'optimisation de l'inférence. Couvre vLLM (service LLM), TensorRT-LLM (optimisation GPU), Ollama (local), BentoML (déploiement ML), Triton (multimodèle), LangChain (orchestration), LlamaIndex (RAG) et les modèles de streaming.

7Installations·0Tendance·@ancoleman

Installation

$npx skills add https://github.com/ancoleman/ai-design-components --skill model-serving

SKILL.md

Deploy LLM and ML models for production inference with optimized serving engines, streaming response patterns, and orchestration frameworks. Focuses on self-hosted model serving, GPU optimization, and integration with frontend applications.

This skill provides the backend serving layer for the ai-chat skill.

See references/langchain-orchestration.md and examples/langchain-rag-qdrant/ for complete patterns.

Déploiement de modèles LLM et ML pour l'inférence. À utiliser lors de la diffusion de modèles en production, de la création d'API d'IA ou de l'optimisation de l'inférence. Couvre vLLM (service LLM), TensorRT-LLM (optimisation GPU), Ollama (local), BentoML (déploiement ML), Triton (multimodèle), LangChain (orchestration), LlamaIndex (RAG) et les modèles de streaming. Source : ancoleman/ai-design-components.

Voir l'original

Faits (prêts à citer)

Champs et commandes stables pour les citations IA/recherche.

Commande d'installation
npx skills add https://github.com/ancoleman/ai-design-components --skill model-serving
Catégorie
</>Développement
Vérifié
Première apparition
2026-02-01
Mis à jour
2026-02-18

Réponses rapides

Qu'est-ce que model-serving ?

Déploiement de modèles LLM et ML pour l'inférence. À utiliser lors de la diffusion de modèles en production, de la création d'API d'IA ou de l'optimisation de l'inférence. Couvre vLLM (service LLM), TensorRT-LLM (optimisation GPU), Ollama (local), BentoML (déploiement ML), Triton (multimodèle), LangChain (orchestration), LlamaIndex (RAG) et les modèles de streaming. Source : ancoleman/ai-design-components.

Comment installer model-serving ?

Ouvrez votre terminal ou outil de ligne de commande (Terminal, iTerm, Windows Terminal, etc.) Copiez et exécutez cette commande : npx skills add https://github.com/ancoleman/ai-design-components --skill model-serving Une fois installé, le skill sera automatiquement configuré dans votre environnement de programmation IA et prêt à être utilisé dans Claude Code ou Cursor

Où se trouve le dépôt source ?

https://github.com/ancoleman/ai-design-components