·ai-multimodal

ai-multimodal

Name: ai-multimodal
Author: vibery-studio

✓

使用 Google Gemini API 处理和生成多媒体内容。功能包括分析音频文件（带时间戳的转录、摘要、语音理解、音乐/声音分析，长达 9.5 小时）、理解图像（字幕、对象检测、OCR、视觉问答、分割）、处理视频（场景检测、问答、时间分析、YouTube URL，长达 6 小时）、从文档中提取（PDF 表格、表格、图表、图表、多页）、生成图像（文本到图像、编辑、合成、细化）。在处理音频/视频文件、分析图像或屏幕截图、处理 PDF 文档、从媒体中提取结构化数据、根据文本提示创建图像或实现多模式 AI 功能时使用。支持多种模型（Gemini 2.5/2.0），上下文窗口最多 2M 令牌。

vibery-studio·ai·multimodal

3安装·0热度·@vibery-studio

安装

$npx skills add https://github.com/vibery-studio/templates --skill ai-multimodal

详情

分类: #文档处理
来源: skills.sh
收录时间: 2026-02-01

ai-multimodal

安装

SKILL.md

可引用信息

快速解答

什么是 ai-multimodal？

如何安装 ai-multimodal？

这个 Skill 的源码在哪？

详情

相关 Skills