multimodal-llm
✓Patrones de integración de LLM de visión, audio y multimodal. Úselo al procesar imágenes, transcribir audio, generar voz o crear canales de IA multimodales.
Instalación
SKILL.md
Integrate vision and audio capabilities from leading multimodal models. Covers image analysis, document understanding, real-time voice agents, speech-to-text, and text-to-speech.
| Category | Rules | Impact | When to Use |
| Vision: Image Analysis | 1 | HIGH | Image captioning, VQA, multi-image comparison, object detection | | Vision: Document Understanding | 1 | HIGH | OCR, chart/diagram analysis, PDF processing, table extraction | | Vision: Model Selection | 1 | MEDIUM | Choosing provider, cost optimization, image size limits |
Patrones de integración de LLM de visión, audio y multimodal. Úselo al procesar imágenes, transcribir audio, generar voz o crear canales de IA multimodales. Fuente: yonatangross/orchestkit.
Datos (listos para citar)
Campos y comandos estables para citas de IA/búsqueda.
- Comando de instalación
npx skills add https://github.com/yonatangross/orchestkit --skill multimodal-llm- Fuente
- yonatangross/orchestkit
- Categoría
- </>Desarrollo
- Verificado
- ✓
- Primera vez visto
- 2026-02-17
- Actualizado
- 2026-02-18
Respuestas rápidas
¿Qué es multimodal-llm?
Patrones de integración de LLM de visión, audio y multimodal. Úselo al procesar imágenes, transcribir audio, generar voz o crear canales de IA multimodales. Fuente: yonatangross/orchestkit.
¿Cómo instalo multimodal-llm?
Abre tu terminal o herramienta de línea de comandos (Terminal, iTerm, Windows Terminal, etc.) Copia y ejecuta este comando: npx skills add https://github.com/yonatangross/orchestkit --skill multimodal-llm Una vez instalado, el skill se configurará automáticamente en tu entorno de programación con IA y estará listo para usar en Claude Code o Cursor
¿Dónde está el repositorio de origen?
https://github.com/yonatangross/orchestkit
Detalles
- Categoría
- </>Desarrollo
- Fuente
- skills.sh
- Primera vez visto
- 2026-02-17