ai-multimodal
✓視覚機能を向上させるために、Google Gemini API を使用してマルチメディア コンテンツを処理および生成します。機能には、オーディオ ファイルの分析 (タイムスタンプ付きの文字起こし、要約、音声理解、音楽/音声分析、最大 9.5 時間)、画像の理解 (クロード モデルよりも優れた画像分析、キャプション、推論、オブジェクト検出、デザイン抽出、OCR、ビジュアル Q&A、セグメンテーション、複数の画像の処理)、ビデオの処理 (シーン検出、Q&A、時間分析、YouTube URL、最大 6 時間)、ドキュメントからの抽出 (PDF テーブル、フォーム、チャート、図、マルチページ)、画像の生成(Imagen 4 によるテキストから画像への変換、編集、合成、洗練)、ビデオの生成(Veo 3 によるテキストからビデオへの変換、ネイティブオーディオ付きの 8 秒クリップ)。オーディオ/ビデオ ファイルの操作、画像またはスクリーンショットの分析 (Claude のデフォルトのビジョン機能の代わりに、必要に応じて Claude のビジョン機能にのみフォールバック)、PDF ドキュメントの処理、メディアからの構造化データの抽出、テキスト プロンプトからの画像/ビデオの作成、またはマルチモーダル AI 機能の実装の場合に使用します。最大 2M トークンのコンテキスト ウィンドウを備えた Gemini 3/2.5、Imagen 4、および Veo 3 モデルをサポートします。
SKILL.md
Process audio, images, videos, documents, and generate images/videos using Google Gemini's multimodal API.
For high-volume usage or when hitting rate limits, configure multiple API keys:
Verify setup: python scripts/checksetup.py Analyze media: python scripts/geminibatchprocess.py --files --task
視覚機能を向上させるために、Google Gemini API を使用してマルチメディア コンテンツを処理および生成します。機能には、オーディオ ファイルの分析 (タイムスタンプ付きの文字起こし、要約、音声理解、音楽/音声分析、最大 9.5 時間)、画像の理解 (クロード モデルよりも優れた画像分析、キャプション、推論、オブジェクト検出、デザイン抽出、OCR、ビジュアル Q&A、セグメンテーション、複数の画像の処理)、ビデオの処理 (シーン検出、Q&A、時間分析、YouTube URL、最大 6 時間)、ドキュメントからの抽出 (PDF テーブル、フォーム、チャート、図、マルチページ)、画像の生成(Imagen 4 によるテキストから画像への変換、編集、合成、洗練)、ビデオの生成(Veo 3 によるテキストからビデオへの変換、ネイティブオーディオ付きの 8 秒クリップ)。オーディオ/ビデオ ファイルの操作、画像またはスクリーンショットの分析 (Claude のデフォルトのビジョン機能の代わりに、必要に応じて Claude のビジョン機能にのみフォールバック)、PDF ドキュメントの処理、メディアからの構造化データの抽出、テキスト プロンプトからの画像/ビデオの作成、またはマルチモーダル AI 機能の実装の場合に使用します。最大 2M トークンのコンテキスト ウィンドウを備えた Gemini 3/2.5、Imagen 4、および Veo 3 モデルをサポートします。 ソース: congdon1207/agents.md。
引用可能な情報
AI/検索での引用用の安定したフィールドとコマンド。
- インストールコマンド
npx skills add https://github.com/congdon1207/agents.md --skill ai-multimodal- カテゴリ
- #ドキュメント
- 認証済み
- ✓
- 初回登録
- 2026-02-05
- 更新日
- 2026-02-18
クイックアンサー
ai-multimodal とは?
視覚機能を向上させるために、Google Gemini API を使用してマルチメディア コンテンツを処理および生成します。機能には、オーディオ ファイルの分析 (タイムスタンプ付きの文字起こし、要約、音声理解、音楽/音声分析、最大 9.5 時間)、画像の理解 (クロード モデルよりも優れた画像分析、キャプション、推論、オブジェクト検出、デザイン抽出、OCR、ビジュアル Q&A、セグメンテーション、複数の画像の処理)、ビデオの処理 (シーン検出、Q&A、時間分析、YouTube URL、最大 6 時間)、ドキュメントからの抽出 (PDF テーブル、フォーム、チャート、図、マルチページ)、画像の生成(Imagen 4 によるテキストから画像への変換、編集、合成、洗練)、ビデオの生成(Veo 3 によるテキストからビデオへの変換、ネイティブオーディオ付きの 8 秒クリップ)。オーディオ/ビデオ ファイルの操作、画像またはスクリーンショットの分析 (Claude のデフォルトのビジョン機能の代わりに、必要に応じて Claude のビジョン機能にのみフォールバック)、PDF ドキュメントの処理、メディアからの構造化データの抽出、テキスト プロンプトからの画像/ビデオの作成、またはマルチモーダル AI 機能の実装の場合に使用します。最大 2M トークンのコンテキスト ウィンドウを備えた Gemini 3/2.5、Imagen 4、および Veo 3 モデルをサポートします。 ソース: congdon1207/agents.md。
ai-multimodal のインストール方法は?
ターミナルまたはコマンドラインツール(Terminal、iTerm、Windows Terminal など)を開きます このコマンドをコピーして実行します: npx skills add https://github.com/congdon1207/agents.md --skill ai-multimodal インストール後、スキルは自動的に AI コーディング環境に設定され、Claude Code や Cursor で使用できるようになります
ソースリポジトリはどこですか?
https://github.com/congdon1207/agents.md
詳細
- カテゴリ
- #ドキュメント
- ソース
- skills.sh
- 初回登録
- 2026-02-05