·ai-multimodal
#

ai-multimodal

samhvw8/dot-claude

Google Gemini API を介したマルチモーダル AI 処理 (2M トークン コンテキスト)。機能: オーディオ (文字起こし、最大 9.5 時間、要約、音楽分析)、画像 (キャプション、OCR、オブジェクト検出、セグメンテーション、ビジュアル Q&A)、ビデオ (シーン検出、最大 6 時間、YouTube URL、時間分析)、ドキュメント (PDF 抽出、表、フォーム、チャート)、画像生成 (テキストから画像への変換、編集)。アクション: 文字起こし、分析、抽出、キャプション、検出、セグメント化、メディアからの生成。キーワード: Gemini API、音声転写、画像キャプション、OCR、オブジェクト検出、ビデオ分析、PDF 抽出、テキストから画像への変換、マルチモーダル、音声認識、ビジュアル Q&A、シーン検出、YouTube 転写、テーブル抽出、フォーム処理、画像生成、Imagen。次の場合に使用します: オーディオ/ビデオの文字起こし、画像/スクリーンショットの分析、PDF からのデータ抽出、YouTube ビデオの処理、テキストからの画像の生成、マルチモーダル AI 機能の実装。

11インストール·0トレンド·@samhvw8

インストール

$npx skills add https://github.com/samhvw8/dot-claude --skill ai-multimodal

SKILL.md

Process audio, images, videos, documents, and generate images using Google Gemini's multimodal API. Unified interface for all multimedia content understanding and generation.

| Task | Audio | Image | Video | Document | Generation |

| Transcription | ✓ | - | ✓ | - | - | | Summarization | ✓ | ✓ | ✓ | ✓ | - | | Q&A | ✓ | ✓ | ✓ | ✓ | - | | Object Detection | - | ✓ | ✓ | - | - | | Text Extraction | - | ✓ | - | ✓ | - | | Structured Output | ✓ | ✓ | ✓ | ✓ | - | | Creation | TTS | - | - | - | ✓ | | Timestamps | ✓ | - | ✓ | - | - | | Segmentation | - | ✓ | - | - | - |

原文を見る

引用可能な情報

AI/検索での引用用の安定したフィールドとコマンド。

インストールコマンド
npx skills add https://github.com/samhvw8/dot-claude --skill ai-multimodal
カテゴリ
#ドキュメント
認証済み
初回登録
2026-02-01
更新日
2026-02-18

クイックアンサー

ai-multimodal とは?

Google Gemini API を介したマルチモーダル AI 処理 (2M トークン コンテキスト)。機能: オーディオ (文字起こし、最大 9.5 時間、要約、音楽分析)、画像 (キャプション、OCR、オブジェクト検出、セグメンテーション、ビジュアル Q&A)、ビデオ (シーン検出、最大 6 時間、YouTube URL、時間分析)、ドキュメント (PDF 抽出、表、フォーム、チャート)、画像生成 (テキストから画像への変換、編集)。アクション: 文字起こし、分析、抽出、キャプション、検出、セグメント化、メディアからの生成。キーワード: Gemini API、音声転写、画像キャプション、OCR、オブジェクト検出、ビデオ分析、PDF 抽出、テキストから画像への変換、マルチモーダル、音声認識、ビジュアル Q&A、シーン検出、YouTube 転写、テーブル抽出、フォーム処理、画像生成、Imagen。次の場合に使用します: オーディオ/ビデオの文字起こし、画像/スクリーンショットの分析、PDF からのデータ抽出、YouTube ビデオの処理、テキストからの画像の生成、マルチモーダル AI 機能の実装。 ソース: samhvw8/dot-claude。

ai-multimodal のインストール方法は?

ターミナルまたはコマンドラインツール(Terminal、iTerm、Windows Terminal など)を開きます このコマンドをコピーして実行します: npx skills add https://github.com/samhvw8/dot-claude --skill ai-multimodal インストール後、スキルは自動的に AI コーディング環境に設定され、Claude Code や Cursor で使用できるようになります

ソースリポジトリはどこですか?

https://github.com/samhvw8/dot-claude