ai-multimodal
✓Google Gemini API を使用してマルチメディア コンテンツを処理および生成します。機能には、オーディオ ファイルの分析 (タイムスタンプ付きの文字起こし、要約、音声理解、最大 9.5 時間の音楽/音声分析)、画像の理解 (キャプション、オブジェクト検出、OCR、ビジュアル Q&A、セグメンテーション)、ビデオの処理 (シーン検出、Q&A、時間分析、YouTube URL、最大 6 時間)、ドキュメントからの抽出 (PDF 表、フォーム、チャート、図、マルチページ)、画像の生成 (テキストから画像への変換、編集、合成、改良)。オーディオ/ビデオ ファイルの操作、画像やスクリーンショットの分析、PDF ドキュメントの処理、メディアからの構造化データの抽出、テキスト プロンプトからの画像の作成、またはマルチモーダル AI 機能の実装時に使用します。最大 2M トークンのコンテキスト ウィンドウを備えた複数のモデル (Gemini 2.5/2.0) をサポートします。
SKILL.md
Process audio, images, videos, documents, and generate images using Google Gemini's multimodal API. Unified interface for all multimedia content understanding and generation.
| Task | Audio | Image | Video | Document | Generation |
| Transcription | ✓ | - | ✓ | - | - | | Summarization | ✓ | ✓ | ✓ | ✓ | - | | Q&A | ✓ | ✓ | ✓ | ✓ | - | | Object Detection | - | ✓ | ✓ | - | - | | Text Extraction | - | ✓ | - | ✓ | - | | Structured Output | ✓ | ✓ | ✓ | ✓ | - | | Creation | TTS | - | - | - | ✓ | | Timestamps | ✓ | - | ✓ | - | - | | Segmentation | - | ✓ | - | - | - |
引用可能な情報
AI/検索での引用用の安定したフィールドとコマンド。
- インストールコマンド
npx skills add https://github.com/mamba-mental/agent-skill-manager --skill ai-multimodal- カテゴリ
- #ドキュメント
- 認証済み
- ✓
- 初回登録
- 2026-02-01
- 更新日
- 2026-02-18
クイックアンサー
ai-multimodal とは?
Google Gemini API を使用してマルチメディア コンテンツを処理および生成します。機能には、オーディオ ファイルの分析 (タイムスタンプ付きの文字起こし、要約、音声理解、最大 9.5 時間の音楽/音声分析)、画像の理解 (キャプション、オブジェクト検出、OCR、ビジュアル Q&A、セグメンテーション)、ビデオの処理 (シーン検出、Q&A、時間分析、YouTube URL、最大 6 時間)、ドキュメントからの抽出 (PDF 表、フォーム、チャート、図、マルチページ)、画像の生成 (テキストから画像への変換、編集、合成、改良)。オーディオ/ビデオ ファイルの操作、画像やスクリーンショットの分析、PDF ドキュメントの処理、メディアからの構造化データの抽出、テキスト プロンプトからの画像の作成、またはマルチモーダル AI 機能の実装時に使用します。最大 2M トークンのコンテキスト ウィンドウを備えた複数のモデル (Gemini 2.5/2.0) をサポートします。 ソース: mamba-mental/agent-skill-manager。
ai-multimodal のインストール方法は?
ターミナルまたはコマンドラインツール(Terminal、iTerm、Windows Terminal など)を開きます このコマンドをコピーして実行します: npx skills add https://github.com/mamba-mental/agent-skill-manager --skill ai-multimodal インストール後、スキルは自動的に AI コーディング環境に設定され、Claude Code や Cursor で使用できるようになります
ソースリポジトリはどこですか?
https://github.com/mamba-mental/agent-skill-manager
詳細
- カテゴリ
- #ドキュメント
- ソース
- skills.sh
- 初回登録
- 2026-02-01