·high-performance-inference
</>

high-performance-inference

yonatangross/skillforge-claude-plugin

vLLM による高性能 LLM 推論、量子化 (AWQ、GPTQ、FP8)、投機的デコード、エッジ展開。推論レイテンシ、スループット、またはメモリを最適化する場合に使用します。

0インストール·0トレンド·@yonatangross

インストール

$npx skills add https://github.com/yonatangross/skillforge-claude-plugin --skill high-performance-inference

SKILL.md

Optimize LLM inference for production with vLLM 0.14.x, quantization, and speculative decoding.

vLLM 0.14.0 (Jan 2026): PyTorch 2.9.0, CUDA 12.9, AttentionConfig API, Python 3.12+ recommended.

| PagedAttention | Up to 24x throughput via efficient KV cache | | Continuous Batching | Dynamic request batching for max utilization | | CUDA Graphs | Fast model execution with graph capture | | Tensor Parallelism | Scale across multiple GPUs | | Prefix Caching | Reuse KV cache for shared prefixes |

vLLM による高性能 LLM 推論、量子化 (AWQ、GPTQ、FP8)、投機的デコード、エッジ展開。推論レイテンシ、スループット、またはメモリを最適化する場合に使用します。 ソース: yonatangross/skillforge-claude-plugin。

原文を見る

引用可能な情報

AI/検索での引用用の安定したフィールドとコマンド。

インストールコマンド
npx skills add https://github.com/yonatangross/skillforge-claude-plugin --skill high-performance-inference
カテゴリ
</>開発ツール
認証済み
初回登録
2026-02-01
更新日
2026-02-18

クイックアンサー

high-performance-inference とは?

vLLM による高性能 LLM 推論、量子化 (AWQ、GPTQ、FP8)、投機的デコード、エッジ展開。推論レイテンシ、スループット、またはメモリを最適化する場合に使用します。 ソース: yonatangross/skillforge-claude-plugin。

high-performance-inference のインストール方法は?

ターミナルまたはコマンドラインツール(Terminal、iTerm、Windows Terminal など)を開きます このコマンドをコピーして実行します: npx skills add https://github.com/yonatangross/skillforge-claude-plugin --skill high-performance-inference インストール後、スキルは自動的に AI コーディング環境に設定され、Claude Code や Cursor で使用できるようになります

ソースリポジトリはどこですか?

https://github.com/yonatangross/skillforge-claude-plugin