serving-llms-vllm
✓Bedient LLMs mit hohem Durchsatz mithilfe von vLLMs PagedAttention und kontinuierlicher Stapelverarbeitung. Verwenden Sie diese Option, wenn Sie Produktions-LLM-APIs bereitstellen, die Inferenzlatenz/den Durchsatz optimieren oder Modelle mit begrenztem GPU-Speicher bereitstellen. Unterstützt OpenAI-kompatible Endpunkte, Quantisierung (GPTQ/AWQ/FP8) und Tensorparallelität.
Installation
SKILL.md
vLLM achieves 24x higher throughput than standard transformers through PagedAttention (block-based KV cache) and continuous batching (mixing prefill/decode requests).
Server deployment patterns: See references/server-deployment.md for Docker, Kubernetes, and load balancing configurations.
Performance optimization: See references/optimization.md for PagedAttention tuning, continuous batching details, and benchmark results.
Bedient LLMs mit hohem Durchsatz mithilfe von vLLMs PagedAttention und kontinuierlicher Stapelverarbeitung. Verwenden Sie diese Option, wenn Sie Produktions-LLM-APIs bereitstellen, die Inferenzlatenz/den Durchsatz optimieren oder Modelle mit begrenztem GPU-Speicher bereitstellen. Unterstützt OpenAI-kompatible Endpunkte, Quantisierung (GPTQ/AWQ/FP8) und Tensorparallelität. Quelle: orchestra-research/ai-research-skills.
Fakten (zitierbereit)
Stabile Felder und Befehle für KI/Such-Zitate.
- Installationsbefehl
npx skills add https://github.com/orchestra-research/ai-research-skills --skill serving-llms-vllm- Kategorie
- </>Entwicklung
- Verifiziert
- ✓
- Erstes Auftreten
- 2026-02-11
- Aktualisiert
- 2026-02-18
Schnelle Antworten
Was ist serving-llms-vllm?
Bedient LLMs mit hohem Durchsatz mithilfe von vLLMs PagedAttention und kontinuierlicher Stapelverarbeitung. Verwenden Sie diese Option, wenn Sie Produktions-LLM-APIs bereitstellen, die Inferenzlatenz/den Durchsatz optimieren oder Modelle mit begrenztem GPU-Speicher bereitstellen. Unterstützt OpenAI-kompatible Endpunkte, Quantisierung (GPTQ/AWQ/FP8) und Tensorparallelität. Quelle: orchestra-research/ai-research-skills.
Wie installiere ich serving-llms-vllm?
Öffnen Sie Ihr Terminal oder Kommandozeilen-Tool (Terminal, iTerm, Windows Terminal, etc.) Kopieren Sie diesen Befehl und führen Sie ihn aus: npx skills add https://github.com/orchestra-research/ai-research-skills --skill serving-llms-vllm Nach der Installation wird der Skill automatisch in Ihrer KI-Programmierumgebung konfiguriert und ist bereit zur Verwendung in Claude Code oder Cursor
Wo ist das Quell-Repository?
https://github.com/orchestra-research/ai-research-skills
Details
- Kategorie
- </>Entwicklung
- Quelle
- skills.sh
- Erstes Auftreten
- 2026-02-11