·ai-multimodal
#

ai-multimodal

mamba-mental/agent-skill-manager

Google Gemini API を使用してマルチメディア コンテンツを処理および生成します。機能には、オーディオ ファイルの分析 (タイムスタンプ付きの文字起こし、要約、音声理解、最大 9.5 時間の音楽/音声分析)、画像の理解 (キャプション、オブジェクト検出、OCR、ビジュアル Q&A、セグメンテーション)、ビデオの処理 (シーン検出、Q&A、時間分析、YouTube URL、最大 6 時間)、ドキュメントからの抽出 (PDF 表、フォーム、チャート、図、マルチページ)、画像の生成 (テキストから画像への変換、編集、合成、改良)。オーディオ/ビデオ ファイルの操作、画像やスクリーンショットの分析、PDF ドキュメントの処理、メディアからの構造化データの抽出、テキスト プロンプトからの画像の作成、またはマルチモーダル AI 機能の実装時に使用します。最大 2M トークンのコンテキスト ウィンドウを備えた複数のモデル (Gemini 2.5/2.0) をサポートします。

3インストール·1トレンド·@mamba-mental

インストール

$npx skills add https://github.com/mamba-mental/agent-skill-manager --skill ai-multimodal

SKILL.md

Process audio, images, videos, documents, and generate images using Google Gemini's multimodal API. Unified interface for all multimedia content understanding and generation.

| Task | Audio | Image | Video | Document | Generation |

| Transcription | ✓ | - | ✓ | - | - | | Summarization | ✓ | ✓ | ✓ | ✓ | - | | Q&A | ✓ | ✓ | ✓ | ✓ | - | | Object Detection | - | ✓ | ✓ | - | - | | Text Extraction | - | ✓ | - | ✓ | - | | Structured Output | ✓ | ✓ | ✓ | ✓ | - | | Creation | TTS | - | - | - | ✓ | | Timestamps | ✓ | - | ✓ | - | - | | Segmentation | - | ✓ | - | - | - |

原文を見る

引用可能な情報

AI/検索での引用用の安定したフィールドとコマンド。

インストールコマンド
npx skills add https://github.com/mamba-mental/agent-skill-manager --skill ai-multimodal
カテゴリ
#ドキュメント
認証済み
初回登録
2026-02-01
更新日
2026-02-18

クイックアンサー

ai-multimodal とは?

Google Gemini API を使用してマルチメディア コンテンツを処理および生成します。機能には、オーディオ ファイルの分析 (タイムスタンプ付きの文字起こし、要約、音声理解、最大 9.5 時間の音楽/音声分析)、画像の理解 (キャプション、オブジェクト検出、OCR、ビジュアル Q&A、セグメンテーション)、ビデオの処理 (シーン検出、Q&A、時間分析、YouTube URL、最大 6 時間)、ドキュメントからの抽出 (PDF 表、フォーム、チャート、図、マルチページ)、画像の生成 (テキストから画像への変換、編集、合成、改良)。オーディオ/ビデオ ファイルの操作、画像やスクリーンショットの分析、PDF ドキュメントの処理、メディアからの構造化データの抽出、テキスト プロンプトからの画像の作成、またはマルチモーダル AI 機能の実装時に使用します。最大 2M トークンのコンテキスト ウィンドウを備えた複数のモデル (Gemini 2.5/2.0) をサポートします。 ソース: mamba-mental/agent-skill-manager。

ai-multimodal のインストール方法は?

ターミナルまたはコマンドラインツール(Terminal、iTerm、Windows Terminal など)を開きます このコマンドをコピーして実行します: npx skills add https://github.com/mamba-mental/agent-skill-manager --skill ai-multimodal インストール後、スキルは自動的に AI コーディング環境に設定され、Claude Code や Cursor で使用できるようになります

ソースリポジトリはどこですか?

https://github.com/mamba-mental/agent-skill-manager