model-serving

Name: model-serving
Author: ancoleman

✓

ancoleman/ai-design-components

Distribuzione di modelli LLM e ML per l'inferenza. Da utilizzare quando si forniscono modelli in produzione, si creano API AI o si ottimizza l'inferenza. Copre vLLM (servizio LLM), TensorRT-LLM (ottimizzazione GPU), Ollama (locale), BentoML (distribuzione ML), Triton (multimodello), LangChain (orchestrazione), LlamaIndex (RAG) e modelli di streaming.

ancoleman·model·serving

12Installazioni·0Tendenza·@ancoleman