·model-serving
</>

model-serving

Distribuzione di modelli LLM e ML per l'inferenza. Da utilizzare quando si forniscono modelli in produzione, si creano API AI o si ottimizza l'inferenza. Copre vLLM (servizio LLM), TensorRT-LLM (ottimizzazione GPU), Ollama (locale), BentoML (distribuzione ML), Triton (multimodello), LangChain (orchestrazione), LlamaIndex (RAG) e modelli di streaming.

12Installazioni·0Tendenza·@ancoleman

Installazione

$npx skills add https://github.com/ancoleman/ai-design-components --skill model-serving

Come installare model-serving

Installa rapidamente la skill AI model-serving nel tuo ambiente di sviluppo tramite riga di comando

  1. Apri il terminale: Apri il tuo terminale o strumento da riga di comando (Terminal, iTerm, Windows Terminal, ecc.)
  2. Esegui il comando di installazione: Copia ed esegui questo comando: npx skills add https://github.com/ancoleman/ai-design-components --skill model-serving
  3. Verifica l'installazione: Dopo l'installazione, la skill verrà configurata automaticamente nel tuo ambiente AI di coding e sarà pronta all'uso in Claude Code, Cursor o OpenClaw

Fonte: ancoleman/ai-design-components.

Deploy LLM and ML models for production inference with optimized serving engines, streaming response patterns, and orchestration frameworks. Focuses on self-hosted model serving, GPU optimization, and integration with frontend applications.

This skill provides the backend serving layer for the ai-chat skill.

See references/langchain-orchestration.md and examples/langchain-rag-qdrant/ for complete patterns.

Distribuzione di modelli LLM e ML per l'inferenza. Da utilizzare quando si forniscono modelli in produzione, si creano API AI o si ottimizza l'inferenza. Copre vLLM (servizio LLM), TensorRT-LLM (ottimizzazione GPU), Ollama (locale), BentoML (distribuzione ML), Triton (multimodello), LangChain (orchestrazione), LlamaIndex (RAG) e modelli di streaming. Fonte: ancoleman/ai-design-components.

Fatti (pronti per citazione)

Campi e comandi stabili per citazioni AI/ricerca.

Comando di installazione
npx skills add https://github.com/ancoleman/ai-design-components --skill model-serving
Categoria
</>Sviluppo
Verificato
Prima apparizione
2026-02-01
Aggiornato
2026-03-11

Browse more skills from ancoleman/ai-design-components

Risposte rapide

Che cos'è model-serving?

Distribuzione di modelli LLM e ML per l'inferenza. Da utilizzare quando si forniscono modelli in produzione, si creano API AI o si ottimizza l'inferenza. Copre vLLM (servizio LLM), TensorRT-LLM (ottimizzazione GPU), Ollama (locale), BentoML (distribuzione ML), Triton (multimodello), LangChain (orchestrazione), LlamaIndex (RAG) e modelli di streaming. Fonte: ancoleman/ai-design-components.

Come installo model-serving?

Apri il tuo terminale o strumento da riga di comando (Terminal, iTerm, Windows Terminal, ecc.) Copia ed esegui questo comando: npx skills add https://github.com/ancoleman/ai-design-components --skill model-serving Dopo l'installazione, la skill verrà configurata automaticamente nel tuo ambiente AI di coding e sarà pronta all'uso in Claude Code, Cursor o OpenClaw

Dov'è il repository sorgente?

https://github.com/ancoleman/ai-design-components