Qu'est-ce que vllm-deployment ?
Déployez vLLM pour une inférence LLM hautes performances. Couvre les déploiements de CPU/GPU Docker et le provisionnement de machines virtuelles cloud avec des points de terminaison d'API compatibles OpenAI. Source : stakpak/community-paks.