·ai-multimodal
#

ai-multimodal

vibery-studio/templates

Procesar y generar contenido multimedia utilizando la API de Google Gemini. Las capacidades incluyen analizar archivos de audio (transcripción con marcas de tiempo, resúmenes, comprensión del habla, análisis de música/sonido hasta 9,5 horas), comprender imágenes (subtítulos, detección de objetos, OCR, preguntas y respuestas visuales, segmentación), procesar videos (detección de escenas, preguntas y respuestas, análisis temporal, URL de YouTube, hasta 6 horas), extraer de documentos (tablas PDF, formularios, gráficos, diagramas, varias páginas), generar imágenes (texto a imagen, edición, composición, refinamiento). Úselo cuando trabaje con archivos de audio/video, analice imágenes o capturas de pantalla, procese documentos PDF, extraiga datos estructurados de medios, cree imágenes a partir de mensajes de texto o implemente funciones de IA multimodal. Admite múltiples modelos (Gemini 2.5/2.0) con ventanas de contexto de hasta 2 millones de tokens.

3Instalaciones·0Tendencia·@vibery-studio

Instalación

$npx skills add https://github.com/vibery-studio/templates --skill ai-multimodal

SKILL.md

Process audio, images, videos, documents, and generate images using Google Gemini's multimodal API. Unified interface for all multimedia content understanding and generation.

| Task | Audio | Image | Video | Document | Generation |

| Transcription | ✓ | - | ✓ | - | - | | Summarization | ✓ | ✓ | ✓ | ✓ | - | | Q&A | ✓ | ✓ | ✓ | ✓ | - | | Object Detection | - | ✓ | ✓ | - | - | | Text Extraction | - | ✓ | - | ✓ | - | | Structured Output | ✓ | ✓ | ✓ | ✓ | - | | Creation | TTS | - | - | - | ✓ | | Timestamps | ✓ | - | ✓ | - | - | | Segmentation | - | ✓ | - | - | - |

Ver original

Datos (listos para citar)

Campos y comandos estables para citas de IA/búsqueda.

Comando de instalación
npx skills add https://github.com/vibery-studio/templates --skill ai-multimodal
Categoría
#Documentos
Verificado
Primera vez visto
2026-02-01
Actualizado
2026-02-18

Respuestas rápidas

¿Qué es ai-multimodal?

Procesar y generar contenido multimedia utilizando la API de Google Gemini. Las capacidades incluyen analizar archivos de audio (transcripción con marcas de tiempo, resúmenes, comprensión del habla, análisis de música/sonido hasta 9,5 horas), comprender imágenes (subtítulos, detección de objetos, OCR, preguntas y respuestas visuales, segmentación), procesar videos (detección de escenas, preguntas y respuestas, análisis temporal, URL de YouTube, hasta 6 horas), extraer de documentos (tablas PDF, formularios, gráficos, diagramas, varias páginas), generar imágenes (texto a imagen, edición, composición, refinamiento). Úselo cuando trabaje con archivos de audio/video, analice imágenes o capturas de pantalla, procese documentos PDF, extraiga datos estructurados de medios, cree imágenes a partir de mensajes de texto o implemente funciones de IA multimodal. Admite múltiples modelos (Gemini 2.5/2.0) con ventanas de contexto de hasta 2 millones de tokens. Fuente: vibery-studio/templates.

¿Cómo instalo ai-multimodal?

Abre tu terminal o herramienta de línea de comandos (Terminal, iTerm, Windows Terminal, etc.) Copia y ejecuta este comando: npx skills add https://github.com/vibery-studio/templates --skill ai-multimodal Una vez instalado, el skill se configurará automáticamente en tu entorno de programación con IA y estará listo para usar en Claude Code o Cursor

¿Dónde está el repositorio de origen?

https://github.com/vibery-studio/templates