multimodal-models
✓「CLIP」、「ウィスパー」、「安定拡散」、「SDXL」、「音声からテキストへ」、「テキストから画像へ」、「画像生成」、「文字起こし」、「ゼロショット分類」、「画像とテキストの類似性」、「修復」、「ControlNet」の場合に使用します。
インストール
SKILL.md
| CLIP | Image + Text | Zero-shot classification, similarity | | Whisper | Audio → Text | Transcription, translation | | Stable Diffusion | Text → Image | Image generation, editing |
| Zero-shot classification | Compare image to text label embeddings | | Image search | Find images matching text query | | Content moderation | Classify against safety categories | | Image similarity | Compare image embeddings |
| ViT-B/32 | 151M | Recommended balance | | ViT-L/14 | 428M | Best quality, slower | | RN50 | 102M | Fastest, lower quality |
「CLIP」、「ウィスパー」、「安定拡散」、「SDXL」、「音声からテキストへ」、「テキストから画像へ」、「画像生成」、「文字起こし」、「ゼロショット分類」、「画像とテキストの類似性」、「修復」、「ControlNet」の場合に使用します。 ソース: eyadsibai/ltk。
引用可能な情報
AI/検索での引用用の安定したフィールドとコマンド。
- インストールコマンド
npx skills add https://github.com/eyadsibai/ltk --skill multimodal-models- カテゴリ
- </>開発ツール
- 認証済み
- ✓
- 初回登録
- 2026-02-17
- 更新日
- 2026-02-18
クイックアンサー
multimodal-models とは?
「CLIP」、「ウィスパー」、「安定拡散」、「SDXL」、「音声からテキストへ」、「テキストから画像へ」、「画像生成」、「文字起こし」、「ゼロショット分類」、「画像とテキストの類似性」、「修復」、「ControlNet」の場合に使用します。 ソース: eyadsibai/ltk。
multimodal-models のインストール方法は?
ターミナルまたはコマンドラインツール(Terminal、iTerm、Windows Terminal など)を開きます このコマンドをコピーして実行します: npx skills add https://github.com/eyadsibai/ltk --skill multimodal-models インストール後、スキルは自動的に AI コーディング環境に設定され、Claude Code や Cursor で使用できるようになります
ソースリポジトリはどこですか?
https://github.com/eyadsibai/ltk
詳細
- カテゴリ
- </>開発ツール
- ソース
- skills.sh
- 初回登録
- 2026-02-17