·ai-multimodal

ai-multimodal

Name: ai-multimodal
Author: jackspace

✓

使用 Google Gemini API 處理和產生多媒體內容。功能包括分析音訊檔案（帶有時間戳記的轉錄、摘要、語音理解、音樂/聲音分析，長達 9.5 小時）、理解圖像（字幕、物件偵測、OCR、視覺問答、分割）、處理影片（場景偵測、問答、時間分析、YouTube URL，長達 6 小時）、從文件中擷取（PDF 表格、表格、表格、圖表、多頁）、產生圖片、圖表編輯、圖表、合成圖片、圖表、圖表、圖表、多頁）。在處理音訊/視訊檔案、分析影像或螢幕截圖、處理 PDF 文件、從媒體中提取結構化資料、根據文字提示建立影像或實現多模式 AI 功能時使用。支援多種模型（Gemini 2.5/2.0），上下文視窗最多 2M 令牌。

jackspace·ai·multimodal

12安裝·0熱度·@jackspace

安裝

$npx skills add https://github.com/jackspace/claudeskillz --skill ai-multimodal

詳情

分類: #文件處理
來源: skills.sh
收錄時間: 2026-02-17

ai-multimodal

安裝

SKILL.md

可引用資訊

快速解答

什麼是 ai-multimodal？

如何安裝 ai-multimodal？

這個 Skill 的原始碼在哪？

詳情

相關 Skills