·ai-multimodal

ai-multimodal

Name: ai-multimodal
Author: congdon1207

✓

視覚機能を向上させるために、Google Gemini API を使用してマルチメディアコンテンツを処理および生成します。機能には、オーディオファイルの分析 (タイムスタンプ付きの文字起こし、要約、音声理解、音楽/音声分析、最大 9.5 時間)、画像の理解 (クロードモデルよりも優れた画像分析、キャプション、推論、オブジェクト検出、デザイン抽出、OCR、ビジュアル Q&A、セグメンテーション、複数の画像の処理)、ビデオの処理 (シーン検出、Q&A、時間分析、YouTube URL、最大 6 時間)、ドキュメントからの抽出 (PDF テーブル、フォーム、チャート、図、マルチページ）、画像の生成（Imagen 4 によるテキストから画像への変換、編集、合成、洗練）、ビデオの生成（Veo 3 によるテキストからビデオへの変換、ネイティブオーディオ付きの 8 秒クリップ）。オーディオ/ビデオファイルの操作、画像またはスクリーンショットの分析 (Claude のデフォルトのビジョン機能の代わりに、必要に応じて Claude のビジョン機能にのみフォールバック)、PDF ドキュメントの処理、メディアからの構造化データの抽出、テキストプロンプトからの画像/ビデオの作成、またはマルチモーダル AI 機能の実装の場合に使用します。最大 2M トークンのコンテキストウィンドウを備えた Gemini 3/2.5、Imagen 4、および Veo 3 モデルをサポートします。

congdon1207·ai·multimodal

2インストール·0トレンド·@congdon1207

インストール

$npx skills add https://github.com/congdon1207/agents.md --skill ai-multimodal

詳細

カテゴリ: #ドキュメント
ソース: skills.sh
初回登録: 2026-02-05

ai-multimodal

インストール

SKILL.md

引用可能な情報

クイックアンサー

ai-multimodal とは？

ai-multimodal のインストール方法は？

ソースリポジトリはどこですか？

詳細

関連 Skills