Что такое model-serving?
Развертывание моделей LLM и ML для вывода. Используйте при обслуживании моделей в производстве, создании API-интерфейсов искусственного интеллекта или оптимизации вывода. Охватывает vLLM (обслуживание LLM), TensorRT-LLM (оптимизация графического процессора), Ollama (локальный), BentoML (развертывание машинного обучения), Triton (мультимодель), LangChain (оркестрация), LlamaIndex (RAG) и шаблоны потоковой передачи. Источник: ancoleman/ai-design-components.