·multimodal-models
</>

multimodal-models

eyadsibai/ltk

「CLIP」、「ウィスパー」、「安定拡散」、「SDXL」、「音声からテキストへ」、「テキストから画像へ」、「画像生成」、「文字起こし」、「ゼロショット分類」、「画像とテキストの類似性」、「修復」、「ControlNet」の場合に使用します。

22インストール·1トレンド·@eyadsibai

インストール

$npx skills add https://github.com/eyadsibai/ltk --skill multimodal-models

SKILL.md

| CLIP | Image + Text | Zero-shot classification, similarity | | Whisper | Audio → Text | Transcription, translation | | Stable Diffusion | Text → Image | Image generation, editing |

| Zero-shot classification | Compare image to text label embeddings | | Image search | Find images matching text query | | Content moderation | Classify against safety categories | | Image similarity | Compare image embeddings |

| ViT-B/32 | 151M | Recommended balance | | ViT-L/14 | 428M | Best quality, slower | | RN50 | 102M | Fastest, lower quality |

「CLIP」、「ウィスパー」、「安定拡散」、「SDXL」、「音声からテキストへ」、「テキストから画像へ」、「画像生成」、「文字起こし」、「ゼロショット分類」、「画像とテキストの類似性」、「修復」、「ControlNet」の場合に使用します。 ソース: eyadsibai/ltk。

原文を見る

引用可能な情報

AI/検索での引用用の安定したフィールドとコマンド。

インストールコマンド
npx skills add https://github.com/eyadsibai/ltk --skill multimodal-models
ソース
eyadsibai/ltk
カテゴリ
</>開発ツール
認証済み
初回登録
2026-02-17
更新日
2026-02-18

クイックアンサー

multimodal-models とは?

「CLIP」、「ウィスパー」、「安定拡散」、「SDXL」、「音声からテキストへ」、「テキストから画像へ」、「画像生成」、「文字起こし」、「ゼロショット分類」、「画像とテキストの類似性」、「修復」、「ControlNet」の場合に使用します。 ソース: eyadsibai/ltk。

multimodal-models のインストール方法は?

ターミナルまたはコマンドラインツール(Terminal、iTerm、Windows Terminal など)を開きます このコマンドをコピーして実行します: npx skills add https://github.com/eyadsibai/ltk --skill multimodal-models インストール後、スキルは自動的に AI コーディング環境に設定され、Claude Code や Cursor で使用できるようになります

ソースリポジトリはどこですか?

https://github.com/eyadsibai/ltk