·ai-multimodal

ai-multimodal

Name: ai-multimodal
Author: samhvw8

✓

通过 Google Gemini API（2M 代币上下文）进行多模式 AI 处理。功能：音频（转录、最长 9.5 小时、摘要、音乐分析）、图像（字幕、OCR、对象检测、分割、视觉问答）、视频（场景检测、最长 6 小时、YouTube URL、时间分析）、文档（PDF 提取、表格、表单、图表）、图像生成（文本到图像、编辑）。操作：转录、分析、提取、字幕、检测、分段、从媒体生成。关键词：Gemini API、音频转录、图像字幕、OCR、对象检测、视频分析、PDF 提取、文本到图像、多模式、语音识别、视觉问答、场景检测、YouTube 转录、表格提取、表单处理、图像生成、Imagen。使用场合：转录音频/视频、分析图像/屏幕截图、从 PDF 中提取数据、处理 YouTube 视频、从文本生成图像、实现多模式 AI 功能。

samhvw8·ai·multimodal

11安装·0热度·@samhvw8

安装

$npx skills add https://github.com/samhvw8/dot-claude --skill ai-multimodal

详情

分类: #文档处理
来源: skills.sh
收录时间: 2026-02-01

ai-multimodal

安装

SKILL.md

可引用信息

快速解答

什么是 ai-multimodal？

如何安装 ai-multimodal？

这个 Skill 的源码在哪？

详情

相关 Skills