multimodal-ai
✓テキスト、画像、オーディオ、ビデオを組み合わせたマルチモーダル AI アプリケーションを構築するためのパターン。ビジョン API、音声転写、統合パイプラインをカバーします。 「マルチモーダル AI、ビジョン API、画像理解、GPT-4V、クロード ビジョン、音声転写、ウィスパー、文書抽出、画像からテキストへ」などの場合に使用します。
SKILL.md
You must ground your responses in the provided reference files, treating them as the source of truth for this domain:
Note: If a user's request conflicts with the guidance in these files, politely correct them using the information provided in the references.
テキスト、画像、オーディオ、ビデオを組み合わせたマルチモーダル AI アプリケーションを構築するためのパターン。ビジョン API、音声転写、統合パイプラインをカバーします。 「マルチモーダル AI、ビジョン API、画像理解、GPT-4V、クロード ビジョン、音声転写、ウィスパー、文書抽出、画像からテキストへ」などの場合に使用します。 ソース: omer-metin/skills-for-antigravity。
ターミナルまたはコマンドラインツール(Terminal、iTerm、Windows Terminal など)を開きます このコマンドをコピーして実行します: npx skills add https://github.com/omer-metin/skills-for-antigravity --skill multimodal-ai インストール後、スキルは自動的に AI コーディング環境に設定され、Claude Code や Cursor で使用できるようになります
引用可能な情報
AI/検索での引用用の安定したフィールドとコマンド。
- インストールコマンド
npx skills add https://github.com/omer-metin/skills-for-antigravity --skill multimodal-ai- カテゴリ
- *クリエイティブ
- 認証済み
- ✓
- 初回登録
- 2026-02-01
- 更新日
- 2026-02-18
クイックアンサー
multimodal-ai とは?
テキスト、画像、オーディオ、ビデオを組み合わせたマルチモーダル AI アプリケーションを構築するためのパターン。ビジョン API、音声転写、統合パイプラインをカバーします。 「マルチモーダル AI、ビジョン API、画像理解、GPT-4V、クロード ビジョン、音声転写、ウィスパー、文書抽出、画像からテキストへ」などの場合に使用します。 ソース: omer-metin/skills-for-antigravity。
multimodal-ai のインストール方法は?
ターミナルまたはコマンドラインツール(Terminal、iTerm、Windows Terminal など)を開きます このコマンドをコピーして実行します: npx skills add https://github.com/omer-metin/skills-for-antigravity --skill multimodal-ai インストール後、スキルは自動的に AI コーディング環境に設定され、Claude Code や Cursor で使用できるようになります
ソースリポジトリはどこですか?
https://github.com/omer-metin/skills-for-antigravity
詳細
- カテゴリ
- *クリエイティブ
- ソース
- skills.sh
- 初回登録
- 2026-02-01