·serving-llms-vllm
</>

serving-llms-vllm

orchestra-research/ai-research-skills

Bedient LLMs mit hohem Durchsatz mithilfe von vLLMs PagedAttention und kontinuierlicher Stapelverarbeitung. Verwenden Sie diese Option, wenn Sie Produktions-LLM-APIs bereitstellen, die Inferenzlatenz/den Durchsatz optimieren oder Modelle mit begrenztem GPU-Speicher bereitstellen. Unterstützt OpenAI-kompatible Endpunkte, Quantisierung (GPTQ/AWQ/FP8) und Tensorparallelität.

17Installationen·0Trend·@orchestra-research

Installation

$npx skills add https://github.com/orchestra-research/ai-research-skills --skill serving-llms-vllm

SKILL.md

vLLM achieves 24x higher throughput than standard transformers through PagedAttention (block-based KV cache) and continuous batching (mixing prefill/decode requests).

Server deployment patterns: See references/server-deployment.md for Docker, Kubernetes, and load balancing configurations.

Performance optimization: See references/optimization.md for PagedAttention tuning, continuous batching details, and benchmark results.

Bedient LLMs mit hohem Durchsatz mithilfe von vLLMs PagedAttention und kontinuierlicher Stapelverarbeitung. Verwenden Sie diese Option, wenn Sie Produktions-LLM-APIs bereitstellen, die Inferenzlatenz/den Durchsatz optimieren oder Modelle mit begrenztem GPU-Speicher bereitstellen. Unterstützt OpenAI-kompatible Endpunkte, Quantisierung (GPTQ/AWQ/FP8) und Tensorparallelität. Quelle: orchestra-research/ai-research-skills.

Original anzeigen

Fakten (zitierbereit)

Stabile Felder und Befehle für KI/Such-Zitate.

Installationsbefehl
npx skills add https://github.com/orchestra-research/ai-research-skills --skill serving-llms-vllm
Kategorie
</>Entwicklung
Verifiziert
Erstes Auftreten
2026-02-11
Aktualisiert
2026-02-18

Schnelle Antworten

Was ist serving-llms-vllm?

Bedient LLMs mit hohem Durchsatz mithilfe von vLLMs PagedAttention und kontinuierlicher Stapelverarbeitung. Verwenden Sie diese Option, wenn Sie Produktions-LLM-APIs bereitstellen, die Inferenzlatenz/den Durchsatz optimieren oder Modelle mit begrenztem GPU-Speicher bereitstellen. Unterstützt OpenAI-kompatible Endpunkte, Quantisierung (GPTQ/AWQ/FP8) und Tensorparallelität. Quelle: orchestra-research/ai-research-skills.

Wie installiere ich serving-llms-vllm?

Öffnen Sie Ihr Terminal oder Kommandozeilen-Tool (Terminal, iTerm, Windows Terminal, etc.) Kopieren Sie diesen Befehl und führen Sie ihn aus: npx skills add https://github.com/orchestra-research/ai-research-skills --skill serving-llms-vllm Nach der Installation wird der Skill automatisch in Ihrer KI-Programmierumgebung konfiguriert und ist bereit zur Verwendung in Claude Code oder Cursor

Wo ist das Quell-Repository?

https://github.com/orchestra-research/ai-research-skills