Integrate vision and audio capabilities from leading multimodal models. Covers image analysis, document understanding, real-time voice agents, speech-to-text, and text-to-speech.
| Category | Rules | Impact | When to Use |
| Vision: Image Analysis | 1 | HIGH | Image captioning, VQA, multi-image comparison, object detection | | Vision: Document Understanding | 1 | HIGH | OCR, chart/diagram analysis, PDF processing, table extraction | | Vision: Model Selection | 1 | MEDIUM | Choosing provider, cost optimization, image size limits |
Modelli di integrazione LLM di visione, audio e multimodale. Da utilizzare durante l'elaborazione di immagini, la trascrizione di audio, la generazione di parlato o la creazione di pipeline AI multimodali. Fonte: yonatangross/orchestkit.