·ai-multimodal

ai-multimodal

Name: ai-multimodal
Author: samhvw8

✓

通過 Google Gemini API（2M 代幣上下文）進行多模式 AI 處理。功能：音頻（轉錄、最長 9.5 小時、摘要、音樂分析）、圖像（字幕、OCR、對象檢測、分割、視覺問答）、視頻（場景檢測、最長 6 小時、YouTube URL、時間分析）、文檔（PDF 提取、表格、表單、圖表）、圖像生成（文本到圖像、編輯）。操作：轉錄、分析、提取、字幕、檢測、分段、從媒體生成。關鍵詞：Gemini API、音頻轉錄、圖像字幕、OCR、對象檢測、視頻分析、PDF 提取、文本到圖像、多模式、語音識別、視覺問答、場景檢測、YouTube 轉錄、表格提取、表單處理、圖像生成、Imagen。使用場合：轉錄音頻/視頻、分析圖像/屏幕截圖、從 PDF 中提取數據、處理 YouTube 視頻、從文本生成圖像、實現多模式 AI 功能。

samhvw8·ai·multimodal

11安裝·0熱度·@samhvw8

安裝

$npx skills add https://github.com/samhvw8/dot-claude --skill ai-multimodal

詳情

分類: #文件處理
來源: skills.sh
收錄時間: 2026-02-01

ai-multimodal

安裝

SKILL.md

可引用資訊

快速解答

什麼是 ai-multimodal？

如何安裝 ai-multimodal？

這個 Skill 的原始碼在哪？

詳情

相關 Skills