high-performance-inference
vLLM による高性能 LLM 推論、量子化 (AWQ、GPTQ、FP8)、投機的デコード、エッジ展開。推論レイテンシ、スループット、またはメモリを最適化する場合に使用します。
SKILL.md
Optimize LLM inference for production with vLLM 0.14.x, quantization, and speculative decoding.
vLLM 0.14.0 (Jan 2026): PyTorch 2.9.0, CUDA 12.9, AttentionConfig API, Python 3.12+ recommended.
| PagedAttention | Up to 24x throughput via efficient KV cache | | Continuous Batching | Dynamic request batching for max utilization | | CUDA Graphs | Fast model execution with graph capture | | Tensor Parallelism | Scale across multiple GPUs | | Prefix Caching | Reuse KV cache for shared prefixes |
vLLM による高性能 LLM 推論、量子化 (AWQ、GPTQ、FP8)、投機的デコード、エッジ展開。推論レイテンシ、スループット、またはメモリを最適化する場合に使用します。 ソース: yonatangross/skillforge-claude-plugin。
引用可能な情報
AI/検索での引用用の安定したフィールドとコマンド。
- インストールコマンド
npx skills add https://github.com/yonatangross/skillforge-claude-plugin --skill high-performance-inference- カテゴリ
- </>開発ツール
- 認証済み
- —
- 初回登録
- 2026-02-01
- 更新日
- 2026-02-18
クイックアンサー
high-performance-inference とは?
vLLM による高性能 LLM 推論、量子化 (AWQ、GPTQ、FP8)、投機的デコード、エッジ展開。推論レイテンシ、スループット、またはメモリを最適化する場合に使用します。 ソース: yonatangross/skillforge-claude-plugin。
high-performance-inference のインストール方法は?
ターミナルまたはコマンドラインツール(Terminal、iTerm、Windows Terminal など)を開きます このコマンドをコピーして実行します: npx skills add https://github.com/yonatangross/skillforge-claude-plugin --skill high-performance-inference インストール後、スキルは自動的に AI コーディング環境に設定され、Claude Code や Cursor で使用できるようになります
ソースリポジトリはどこですか?
https://github.com/yonatangross/skillforge-claude-plugin
詳細
- カテゴリ
- </>開発ツール
- ソース
- user
- 初回登録
- 2026-02-01