ai-multimodal
✓Google Gemini API を介したマルチモーダル AI 処理 (2M トークン コンテキスト)。機能: オーディオ (文字起こし、最大 9.5 時間、要約、音楽分析)、画像 (キャプション、OCR、オブジェクト検出、セグメンテーション、ビジュアル Q&A)、ビデオ (シーン検出、最大 6 時間、YouTube URL、時間分析)、ドキュメント (PDF 抽出、表、フォーム、チャート)、画像生成 (テキストから画像への変換、編集)。アクション: 文字起こし、分析、抽出、キャプション、検出、セグメント化、メディアからの生成。キーワード: Gemini API、音声転写、画像キャプション、OCR、オブジェクト検出、ビデオ分析、PDF 抽出、テキストから画像への変換、マルチモーダル、音声認識、ビジュアル Q&A、シーン検出、YouTube 転写、テーブル抽出、フォーム処理、画像生成、Imagen。次の場合に使用します: オーディオ/ビデオの文字起こし、画像/スクリーンショットの分析、PDF からのデータ抽出、YouTube ビデオの処理、テキストからの画像の生成、マルチモーダル AI 機能の実装。
SKILL.md
Process audio, images, videos, documents, and generate images using Google Gemini's multimodal API. Unified interface for all multimedia content understanding and generation.
| Task | Audio | Image | Video | Document | Generation |
| Transcription | ✓ | - | ✓ | - | - | | Summarization | ✓ | ✓ | ✓ | ✓ | - | | Q&A | ✓ | ✓ | ✓ | ✓ | - | | Object Detection | - | ✓ | ✓ | - | - | | Text Extraction | - | ✓ | - | ✓ | - | | Structured Output | ✓ | ✓ | ✓ | ✓ | - | | Creation | TTS | - | - | - | ✓ | | Timestamps | ✓ | - | ✓ | - | - | | Segmentation | - | ✓ | - | - | - |
引用可能な情報
AI/検索での引用用の安定したフィールドとコマンド。
- インストールコマンド
npx skills add https://github.com/samhvw8/dot-claude --skill ai-multimodal- カテゴリ
- #ドキュメント
- 認証済み
- ✓
- 初回登録
- 2026-02-01
- 更新日
- 2026-02-18
クイックアンサー
ai-multimodal とは?
Google Gemini API を介したマルチモーダル AI 処理 (2M トークン コンテキスト)。機能: オーディオ (文字起こし、最大 9.5 時間、要約、音楽分析)、画像 (キャプション、OCR、オブジェクト検出、セグメンテーション、ビジュアル Q&A)、ビデオ (シーン検出、最大 6 時間、YouTube URL、時間分析)、ドキュメント (PDF 抽出、表、フォーム、チャート)、画像生成 (テキストから画像への変換、編集)。アクション: 文字起こし、分析、抽出、キャプション、検出、セグメント化、メディアからの生成。キーワード: Gemini API、音声転写、画像キャプション、OCR、オブジェクト検出、ビデオ分析、PDF 抽出、テキストから画像への変換、マルチモーダル、音声認識、ビジュアル Q&A、シーン検出、YouTube 転写、テーブル抽出、フォーム処理、画像生成、Imagen。次の場合に使用します: オーディオ/ビデオの文字起こし、画像/スクリーンショットの分析、PDF からのデータ抽出、YouTube ビデオの処理、テキストからの画像の生成、マルチモーダル AI 機能の実装。 ソース: samhvw8/dot-claude。
ai-multimodal のインストール方法は?
ターミナルまたはコマンドラインツール(Terminal、iTerm、Windows Terminal など)を開きます このコマンドをコピーして実行します: npx skills add https://github.com/samhvw8/dot-claude --skill ai-multimodal インストール後、スキルは自動的に AI コーディング環境に設定され、Claude Code や Cursor で使用できるようになります
ソースリポジトリはどこですか?
https://github.com/samhvw8/dot-claude
詳細
- カテゴリ
- #ドキュメント
- ソース
- skills.sh
- 初回登録
- 2026-02-01