model-serving
✓推論のための LLM および ML モデルのデプロイメント。実稼働環境でモデルを提供する場合、AI API を構築する場合、または推論を最適化する場合に使用します。 vLLM (LLM サービング)、TensorRT-LLM (GPU 最適化)、Ollama (ローカル)、BentoML (ML デプロイメント)、Triton (マルチモデル)、LangChain (オーケストレーション)、LlamaIndex (RAG)、ストリーミング パターンをカバーします。
SKILL.md
Deploy LLM and ML models for production inference with optimized serving engines, streaming response patterns, and orchestration frameworks. Focuses on self-hosted model serving, GPU optimization, and integration with frontend applications.
This skill provides the backend serving layer for the ai-chat skill.
See references/langchain-orchestration.md and examples/langchain-rag-qdrant/ for complete patterns.
推論のための LLM および ML モデルのデプロイメント。実稼働環境でモデルを提供する場合、AI API を構築する場合、または推論を最適化する場合に使用します。 vLLM (LLM サービング)、TensorRT-LLM (GPU 最適化)、Ollama (ローカル)、BentoML (ML デプロイメント)、Triton (マルチモデル)、LangChain (オーケストレーション)、LlamaIndex (RAG)、ストリーミング パターンをカバーします。 ソース: ancoleman/ai-design-components。
引用可能な情報
AI/検索での引用用の安定したフィールドとコマンド。
- インストールコマンド
npx skills add https://github.com/ancoleman/ai-design-components --skill model-serving- カテゴリ
- </>開発ツール
- 認証済み
- ✓
- 初回登録
- 2026-02-01
- 更新日
- 2026-02-18
クイックアンサー
model-serving とは?
推論のための LLM および ML モデルのデプロイメント。実稼働環境でモデルを提供する場合、AI API を構築する場合、または推論を最適化する場合に使用します。 vLLM (LLM サービング)、TensorRT-LLM (GPU 最適化)、Ollama (ローカル)、BentoML (ML デプロイメント)、Triton (マルチモデル)、LangChain (オーケストレーション)、LlamaIndex (RAG)、ストリーミング パターンをカバーします。 ソース: ancoleman/ai-design-components。
model-serving のインストール方法は?
ターミナルまたはコマンドラインツール(Terminal、iTerm、Windows Terminal など)を開きます このコマンドをコピーして実行します: npx skills add https://github.com/ancoleman/ai-design-components --skill model-serving インストール後、スキルは自動的に AI コーディング環境に設定され、Claude Code や Cursor で使用できるようになります
ソースリポジトリはどこですか?
https://github.com/ancoleman/ai-design-components
詳細
- カテゴリ
- </>開発ツール
- ソース
- skills.sh
- 初回登録
- 2026-02-01