ai-multimodal
✓Procesar y generar contenido multimedia utilizando la API de Google Gemini. Las capacidades incluyen analizar archivos de audio (transcripción con marcas de tiempo, resúmenes, comprensión del habla, análisis de música/sonido hasta 9,5 horas), comprender imágenes (subtítulos, detección de objetos, OCR, preguntas y respuestas visuales, segmentación), procesar videos (detección de escenas, preguntas y respuestas, análisis temporal, URL de YouTube, hasta 6 horas), extraer de documentos (tablas PDF, formularios, gráficos, diagramas, varias páginas), generar imágenes (texto a imagen, edición, composición, refinamiento). Úselo cuando trabaje con archivos de audio/video, analice imágenes o capturas de pantalla, procese documentos PDF, extraiga datos estructurados de medios, cree imágenes a partir de mensajes de texto o implemente funciones de IA multimodal. Admite múltiples modelos (Gemini 2.5/2.0) con ventanas de contexto de hasta 2 millones de tokens.
Instalación
SKILL.md
Process audio, images, videos, documents, and generate images using Google Gemini's multimodal API. Unified interface for all multimedia content understanding and generation.
| Task | Audio | Image | Video | Document | Generation |
| Transcription | ✓ | - | ✓ | - | - | | Summarization | ✓ | ✓ | ✓ | ✓ | - | | Q&A | ✓ | ✓ | ✓ | ✓ | - | | Object Detection | - | ✓ | ✓ | - | - | | Text Extraction | - | ✓ | - | ✓ | - | | Structured Output | ✓ | ✓ | ✓ | ✓ | - | | Creation | TTS | - | - | - | ✓ | | Timestamps | ✓ | - | ✓ | - | - | | Segmentation | - | ✓ | - | - | - |
Datos (listos para citar)
Campos y comandos estables para citas de IA/búsqueda.
- Comando de instalación
npx skills add https://github.com/mamba-mental/agent-skill-manager --skill ai-multimodal- Categoría
- #Documentos
- Verificado
- ✓
- Primera vez visto
- 2026-02-01
- Actualizado
- 2026-02-18
Respuestas rápidas
¿Qué es ai-multimodal?
Procesar y generar contenido multimedia utilizando la API de Google Gemini. Las capacidades incluyen analizar archivos de audio (transcripción con marcas de tiempo, resúmenes, comprensión del habla, análisis de música/sonido hasta 9,5 horas), comprender imágenes (subtítulos, detección de objetos, OCR, preguntas y respuestas visuales, segmentación), procesar videos (detección de escenas, preguntas y respuestas, análisis temporal, URL de YouTube, hasta 6 horas), extraer de documentos (tablas PDF, formularios, gráficos, diagramas, varias páginas), generar imágenes (texto a imagen, edición, composición, refinamiento). Úselo cuando trabaje con archivos de audio/video, analice imágenes o capturas de pantalla, procese documentos PDF, extraiga datos estructurados de medios, cree imágenes a partir de mensajes de texto o implemente funciones de IA multimodal. Admite múltiples modelos (Gemini 2.5/2.0) con ventanas de contexto de hasta 2 millones de tokens. Fuente: mamba-mental/agent-skill-manager.
¿Cómo instalo ai-multimodal?
Abre tu terminal o herramienta de línea de comandos (Terminal, iTerm, Windows Terminal, etc.) Copia y ejecuta este comando: npx skills add https://github.com/mamba-mental/agent-skill-manager --skill ai-multimodal Una vez instalado, el skill se configurará automáticamente en tu entorno de programación con IA y estará listo para usar en Claude Code o Cursor
¿Dónde está el repositorio de origen?
https://github.com/mamba-mental/agent-skill-manager
Detalles
- Categoría
- #Documentos
- Fuente
- skills.sh
- Primera vez visto
- 2026-02-01