·multimodal-llm
</>

multimodal-llm

yonatangross/orchestkit

视觉、音频和多模式 LLM 集成模式。在处理图像、转录音频、生成语音或构建多模式 AI 管道时使用。

8安装·2热度·@yonatangross

安装

$npx skills add https://github.com/yonatangross/orchestkit --skill multimodal-llm

SKILL.md

Integrate vision and audio capabilities from leading multimodal models. Covers image analysis, document understanding, real-time voice agents, speech-to-text, and text-to-speech.

| Category | Rules | Impact | When to Use |

| Vision: Image Analysis | 1 | HIGH | Image captioning, VQA, multi-image comparison, object detection | | Vision: Document Understanding | 1 | HIGH | OCR, chart/diagram analysis, PDF processing, table extraction | | Vision: Model Selection | 1 | MEDIUM | Choosing provider, cost optimization, image size limits |

视觉、音频和多模式 LLM 集成模式。在处理图像、转录音频、生成语音或构建多模式 AI 管道时使用。 来源:yonatangross/orchestkit。

查看原文

可引用信息

为搜索与 AI 引用准备的稳定字段与命令。

安装命令
npx skills add https://github.com/yonatangross/orchestkit --skill multimodal-llm
分类
</>开发工具
认证
收录时间
2026-02-17
更新时间
2026-02-18

快速解答

什么是 multimodal-llm?

视觉、音频和多模式 LLM 集成模式。在处理图像、转录音频、生成语音或构建多模式 AI 管道时使用。 来源:yonatangross/orchestkit。

如何安装 multimodal-llm?

打开你的终端或命令行工具(如 Terminal、iTerm、Windows Terminal 等) 复制并运行以下命令:npx skills add https://github.com/yonatangross/orchestkit --skill multimodal-llm 安装完成后,技能将自动配置到你的 AI 编程环境中,可以在 Claude Code 或 Cursor 中使用

这个 Skill 的源码在哪?

https://github.com/yonatangross/orchestkit