·ai-multimodal

ai-multimodal

Name: ai-multimodal
Author: mrgoonie

✓

使用 Google Gemini API 處理和生成多媒體內容。功能包括分析音頻文件（帶時間戳的轉錄、摘要、語音理解、音樂/聲音分析，長達 9.5 小時）、理解圖像（字幕、對象檢測、OCR、視覺問答、分割）、處理視頻（場景檢測、問答、時間分析、YouTube URL，長達 6 小時）、從文檔中提取（PDF 表格、表格、圖表、圖表、多頁）、生成圖像（文本到圖像、編輯、合成、細化）。在處理音頻/視頻文件、分析圖像或屏幕截圖、處理 PDF 文檔、從媒體中提取結構化數據、根據文本提示創建圖像或實現多模式 AI 功能時使用。支持多種模型（Gemini 2.5/2.0），上下文窗口最多 2M 令牌。

mrgoonie·ai·multimodal

120安裝·4熱度·@mrgoonie

安裝

$npx skills add https://github.com/mrgoonie/claudekit-skills --skill ai-multimodal

詳情

分類: #文件處理
來源: skills.sh
收錄時間: 2026-02-01

ai-multimodal

安裝

SKILL.md

可引用資訊

快速解答

什麼是 ai-multimodal？

如何安裝 ai-multimodal？

這個 Skill 的原始碼在哪？

詳情

相關 Skills