serving-llms-vllm
✓vLLM の PagedAttendance と連続バッチ処理を使用して、高スループットで LLM を提供します。実稼働 LLM API をデプロイする場合、推論レイテンシー/スループットを最適化する場合、または限られた GPU メモリでモデルを提供する場合に使用します。 OpenAI 互換エンドポイント、量子化 (GPTQ/AWQ/FP8)、テンソル並列処理をサポートします。
SKILL.md
vLLM achieves 24x higher throughput than standard transformers through PagedAttention (block-based KV cache) and continuous batching (mixing prefill/decode requests).
Server deployment patterns: See references/server-deployment.md for Docker, Kubernetes, and load balancing configurations.
Performance optimization: See references/optimization.md for PagedAttention tuning, continuous batching details, and benchmark results.
vLLM の PagedAttendance と連続バッチ処理を使用して、高スループットで LLM を提供します。実稼働 LLM API をデプロイする場合、推論レイテンシー/スループットを最適化する場合、または限られた GPU メモリでモデルを提供する場合に使用します。 OpenAI 互換エンドポイント、量子化 (GPTQ/AWQ/FP8)、テンソル並列処理をサポートします。 ソース: orchestra-research/ai-research-skills。
引用可能な情報
AI/検索での引用用の安定したフィールドとコマンド。
- インストールコマンド
npx skills add https://github.com/orchestra-research/ai-research-skills --skill serving-llms-vllm- カテゴリ
- </>開発ツール
- 認証済み
- ✓
- 初回登録
- 2026-02-11
- 更新日
- 2026-02-18
クイックアンサー
serving-llms-vllm とは?
vLLM の PagedAttendance と連続バッチ処理を使用して、高スループットで LLM を提供します。実稼働 LLM API をデプロイする場合、推論レイテンシー/スループットを最適化する場合、または限られた GPU メモリでモデルを提供する場合に使用します。 OpenAI 互換エンドポイント、量子化 (GPTQ/AWQ/FP8)、テンソル並列処理をサポートします。 ソース: orchestra-research/ai-research-skills。
serving-llms-vllm のインストール方法は?
ターミナルまたはコマンドラインツール(Terminal、iTerm、Windows Terminal など)を開きます このコマンドをコピーして実行します: npx skills add https://github.com/orchestra-research/ai-research-skills --skill serving-llms-vllm インストール後、スキルは自動的に AI コーディング環境に設定され、Claude Code や Cursor で使用できるようになります
ソースリポジトリはどこですか?
https://github.com/orchestra-research/ai-research-skills
詳細
- カテゴリ
- </>開発ツール
- ソース
- skills.sh
- 初回登録
- 2026-02-11