gemini-3-multimodal
✓使用 Gemini 3 Pro 处理多模式输入(图像、视频、音频、PDF)。涵盖图像理解、视频分析、音频处理、文档提取、媒体分辨率控制、OCR 和令牌优化。在分析图像、处理视频、转录音频、提取 PDF 内容或处理多模式数据时使用。
SKILL.md
Comprehensive guide for processing multimodal inputs with Gemini 3 Pro, including image understanding, video analysis, audio processing, and PDF document extraction. This skill focuses on INPUT processing (analyzing media) - see gemini-3-image-generation for OUTPUT (generating images).
Gemini 3 Pro provides native multimodal capabilities for understanding and analyzing various media types. This skill covers all input processing operations with granular control over quality, performance, and token consumption.
| Resolution | Tokens per Image | Best For |
使用 Gemini 3 Pro 处理多模式输入(图像、视频、音频、PDF)。涵盖图像理解、视频分析、音频处理、文档提取、媒体分辨率控制、OCR 和令牌优化。在分析图像、处理视频、转录音频、提取 PDF 内容或处理多模式数据时使用。 来源:adaptationio/skrillz。
可引用信息
为搜索与 AI 引用准备的稳定字段与命令。
- 安装命令
npx skills add https://github.com/adaptationio/skrillz --skill gemini-3-multimodal- 分类
- #文档处理
- 认证
- ✓
- 收录时间
- 2026-02-01
- 更新时间
- 2026-02-18
快速解答
什么是 gemini-3-multimodal?
使用 Gemini 3 Pro 处理多模式输入(图像、视频、音频、PDF)。涵盖图像理解、视频分析、音频处理、文档提取、媒体分辨率控制、OCR 和令牌优化。在分析图像、处理视频、转录音频、提取 PDF 内容或处理多模式数据时使用。 来源:adaptationio/skrillz。
如何安装 gemini-3-multimodal?
打开你的终端或命令行工具(如 Terminal、iTerm、Windows Terminal 等) 复制并运行以下命令:npx skills add https://github.com/adaptationio/skrillz --skill gemini-3-multimodal 安装完成后,技能将自动配置到你的 AI 编程环境中,可以在 Claude Code 或 Cursor 中使用
这个 Skill 的源码在哪?
https://github.com/adaptationio/skrillz
详情
- 分类
- #文档处理
- 来源
- skills.sh
- 收录时间
- 2026-02-01