Che cos'è model-serving?
Distribuzione di modelli LLM e ML per l'inferenza. Da utilizzare quando si forniscono modelli in produzione, si creano API AI o si ottimizza l'inferenza. Copre vLLM (servizio LLM), TensorRT-LLM (ottimizzazione GPU), Ollama (locale), BentoML (distribuzione ML), Triton (multimodello), LangChain (orchestrazione), LlamaIndex (RAG) e modelli di streaming. Fonte: ancoleman/ai-design-components.