·ai-multimodal
#

ai-multimodal

duonglx/chanmayfoods

視覚機能を向上させるために、Google Gemini API を使用してマルチメディア コンテンツを処理および生成します。機能には、オーディオ ファイルの分析 (タイムスタンプ付きの文字起こし、要約、音声理解、音楽/音声分析、最大 9.5 時間)、画像の理解 (クロード モデルよりも優れた画像分析、キャプション、推論、オブジェクト検出、デザイン抽出、OCR、ビジュアル Q&A、セグメンテーション、複数の画像の処理)、ビデオの処理 (シーン検出、Q&A、時間分析、YouTube URL、最大 6 時間)、ドキュメントからの抽出 (PDF テーブル、フォーム、チャート、図、マルチページ)、画像の生成(Imagen 4 によるテキストから画像への変換、編集、合成、洗練)、ビデオの生成(Veo 3 によるテキストからビデオへの変換、ネイティブオーディオ付きの 8 秒クリップ)。オーディオ/ビデオ ファイルの操作、画像またはスクリーンショットの分析 (Claude のデフォルトのビジョン機能の代わりに、必要に応じて Claude のビジョン機能にのみフォールバック)、PDF ドキュメントの処理、メディアからの構造化データの抽出、テキスト プロンプトからの画像/ビデオの作成、またはマルチモーダル AI 機能の実装の場合に使用します。最大 2M トークンのコンテキスト ウィンドウを備えた Gemini 3/2.5、Imagen 4、および Veo 3 モデルをサポートします。

5インストール·0トレンド·@duonglx

インストール

$npx skills add https://github.com/duonglx/chanmayfoods --skill ai-multimodal

SKILL.md

Process audio, images, videos, documents, and generate images/videos using Google Gemini's multimodal API.

For high-volume usage or when hitting rate limits, configure multiple API keys:

Verify setup: python scripts/checksetup.py Analyze media: python scripts/geminibatchprocess.py --files --task

視覚機能を向上させるために、Google Gemini API を使用してマルチメディア コンテンツを処理および生成します。機能には、オーディオ ファイルの分析 (タイムスタンプ付きの文字起こし、要約、音声理解、音楽/音声分析、最大 9.5 時間)、画像の理解 (クロード モデルよりも優れた画像分析、キャプション、推論、オブジェクト検出、デザイン抽出、OCR、ビジュアル Q&A、セグメンテーション、複数の画像の処理)、ビデオの処理 (シーン検出、Q&A、時間分析、YouTube URL、最大 6 時間)、ドキュメントからの抽出 (PDF テーブル、フォーム、チャート、図、マルチページ)、画像の生成(Imagen 4 によるテキストから画像への変換、編集、合成、洗練)、ビデオの生成(Veo 3 によるテキストからビデオへの変換、ネイティブオーディオ付きの 8 秒クリップ)。オーディオ/ビデオ ファイルの操作、画像またはスクリーンショットの分析 (Claude のデフォルトのビジョン機能の代わりに、必要に応じて Claude のビジョン機能にのみフォールバック)、PDF ドキュメントの処理、メディアからの構造化データの抽出、テキスト プロンプトからの画像/ビデオの作成、またはマルチモーダル AI 機能の実装の場合に使用します。最大 2M トークンのコンテキスト ウィンドウを備えた Gemini 3/2.5、Imagen 4、および Veo 3 モデルをサポートします。 ソース: duonglx/chanmayfoods。

原文を見る

引用可能な情報

AI/検索での引用用の安定したフィールドとコマンド。

インストールコマンド
npx skills add https://github.com/duonglx/chanmayfoods --skill ai-multimodal
カテゴリ
#ドキュメント
認証済み
初回登録
2026-02-01
更新日
2026-02-18

クイックアンサー

ai-multimodal とは?

視覚機能を向上させるために、Google Gemini API を使用してマルチメディア コンテンツを処理および生成します。機能には、オーディオ ファイルの分析 (タイムスタンプ付きの文字起こし、要約、音声理解、音楽/音声分析、最大 9.5 時間)、画像の理解 (クロード モデルよりも優れた画像分析、キャプション、推論、オブジェクト検出、デザイン抽出、OCR、ビジュアル Q&A、セグメンテーション、複数の画像の処理)、ビデオの処理 (シーン検出、Q&A、時間分析、YouTube URL、最大 6 時間)、ドキュメントからの抽出 (PDF テーブル、フォーム、チャート、図、マルチページ)、画像の生成(Imagen 4 によるテキストから画像への変換、編集、合成、洗練)、ビデオの生成(Veo 3 によるテキストからビデオへの変換、ネイティブオーディオ付きの 8 秒クリップ)。オーディオ/ビデオ ファイルの操作、画像またはスクリーンショットの分析 (Claude のデフォルトのビジョン機能の代わりに、必要に応じて Claude のビジョン機能にのみフォールバック)、PDF ドキュメントの処理、メディアからの構造化データの抽出、テキスト プロンプトからの画像/ビデオの作成、またはマルチモーダル AI 機能の実装の場合に使用します。最大 2M トークンのコンテキスト ウィンドウを備えた Gemini 3/2.5、Imagen 4、および Veo 3 モデルをサポートします。 ソース: duonglx/chanmayfoods。

ai-multimodal のインストール方法は?

ターミナルまたはコマンドラインツール(Terminal、iTerm、Windows Terminal など)を開きます このコマンドをコピーして実行します: npx skills add https://github.com/duonglx/chanmayfoods --skill ai-multimodal インストール後、スキルは自動的に AI コーディング環境に設定され、Claude Code や Cursor で使用できるようになります

ソースリポジトリはどこですか?

https://github.com/duonglx/chanmayfoods