Integrate vision and audio capabilities from leading multimodal models. Covers image analysis, document understanding, real-time voice agents, speech-to-text, and text-to-speech.
| Category | Rules | Impact | When to Use |
| Vision: Image Analysis | 1 | HIGH | Image captioning, VQA, multi-image comparison, object detection | | Vision: Document Understanding | 1 | HIGH | OCR, chart/diagram analysis, PDF processing, table extraction | | Vision: Model Selection | 1 | MEDIUM | Choosing provider, cost optimization, image size limits |
Шаблоны интеграции зрения, аудио и мультимодального LLM. Используйте при обработке изображений, расшифровке аудио, генерации речи или построении мультимодальных конвейеров искусственного интеллекта. Источник: yonatangross/orchestkit.