ai-multimodal
✓Procese y genere contenido multimedia utilizando la API de Google Gemini para obtener mejores capacidades de visión. Las capacidades incluyen analizar archivos de audio (transcripción con marcas de tiempo, resúmenes, comprensión del habla, análisis de música/sonido hasta 9,5 horas), comprender imágenes (mejor análisis de imágenes que los modelos Claude, subtítulos, razonamiento, detección de objetos, extracción de diseños, OCR, preguntas y respuestas visuales, segmentación, manejo de múltiples imágenes), procesar videos (detección de escenas, preguntas y respuestas, análisis temporal, URL de YouTube, hasta 6 horas), extraer de documentos (tablas PDF, formularios, gráficos, diagramas, multipágina), generar imágenes (texto a imagen con Imagen 4, edición, composición, refinamiento), generar videos (texto a video con Veo 3, clips de 8 segundos con audio nativo). Úselo cuando trabaje con archivos de audio/video, analice imágenes o capturas de pantalla (en lugar de las capacidades de visión predeterminadas de Claude, solo recurra a las capacidades de visión de Claude si es necesario), procese documentos PDF, extraiga datos estructurados de medios, cree imágenes/videos a partir de indicaciones de texto o implemente funciones de IA multimodal. Admite los modelos Gemini 3/2.5, Imagen 4 y Veo 3 con ventanas de contexto de hasta 2 millones de tokens.
Instalación
SKILL.md
Process audio, images, videos, documents, and generate images/videos using Google Gemini's multimodal API.
For high-volume usage or when hitting rate limits, configure multiple API keys:
Verify setup: python scripts/checksetup.py Analyze media: python scripts/geminibatchprocess.py --files --task
Procese y genere contenido multimedia utilizando la API de Google Gemini para obtener mejores capacidades de visión. Las capacidades incluyen analizar archivos de audio (transcripción con marcas de tiempo, resúmenes, comprensión del habla, análisis de música/sonido hasta 9,5 horas), comprender imágenes (mejor análisis de imágenes que los modelos Claude, subtítulos, razonamiento, detección de objetos, extracción de diseños, OCR, preguntas y respuestas visuales, segmentación, manejo de múltiples imágenes), procesar videos (detección de escenas, preguntas y respuestas, análisis temporal, URL de YouTube, hasta 6 horas), extraer de documentos (tablas PDF, formularios, gráficos, diagramas, multipágina), generar imágenes (texto a imagen con Imagen 4, edición, composición, refinamiento), generar videos (texto a video con Veo 3, clips de 8 segundos con audio nativo). Úselo cuando trabaje con archivos de audio/video, analice imágenes o capturas de pantalla (en lugar de las capacidades de visión predeterminadas de Claude, solo recurra a las capacidades de visión de Claude si es necesario), procese documentos PDF, extraiga datos estructurados de medios, cree imágenes/videos a partir de indicaciones de texto o implemente funciones de IA multimodal. Admite los modelos Gemini 3/2.5, Imagen 4 y Veo 3 con ventanas de contexto de hasta 2 millones de tokens. Fuente: congdon1207/agents.md.
Datos (listos para citar)
Campos y comandos estables para citas de IA/búsqueda.
- Comando de instalación
npx skills add https://github.com/congdon1207/agents.md --skill ai-multimodal- Fuente
- congdon1207/agents.md
- Categoría
- #Documentos
- Verificado
- ✓
- Primera vez visto
- 2026-02-05
- Actualizado
- 2026-02-18
Respuestas rápidas
¿Qué es ai-multimodal?
Procese y genere contenido multimedia utilizando la API de Google Gemini para obtener mejores capacidades de visión. Las capacidades incluyen analizar archivos de audio (transcripción con marcas de tiempo, resúmenes, comprensión del habla, análisis de música/sonido hasta 9,5 horas), comprender imágenes (mejor análisis de imágenes que los modelos Claude, subtítulos, razonamiento, detección de objetos, extracción de diseños, OCR, preguntas y respuestas visuales, segmentación, manejo de múltiples imágenes), procesar videos (detección de escenas, preguntas y respuestas, análisis temporal, URL de YouTube, hasta 6 horas), extraer de documentos (tablas PDF, formularios, gráficos, diagramas, multipágina), generar imágenes (texto a imagen con Imagen 4, edición, composición, refinamiento), generar videos (texto a video con Veo 3, clips de 8 segundos con audio nativo). Úselo cuando trabaje con archivos de audio/video, analice imágenes o capturas de pantalla (en lugar de las capacidades de visión predeterminadas de Claude, solo recurra a las capacidades de visión de Claude si es necesario), procese documentos PDF, extraiga datos estructurados de medios, cree imágenes/videos a partir de indicaciones de texto o implemente funciones de IA multimodal. Admite los modelos Gemini 3/2.5, Imagen 4 y Veo 3 con ventanas de contexto de hasta 2 millones de tokens. Fuente: congdon1207/agents.md.
¿Cómo instalo ai-multimodal?
Abre tu terminal o herramienta de línea de comandos (Terminal, iTerm, Windows Terminal, etc.) Copia y ejecuta este comando: npx skills add https://github.com/congdon1207/agents.md --skill ai-multimodal Una vez instalado, el skill se configurará automáticamente en tu entorno de programación con IA y estará listo para usar en Claude Code o Cursor
¿Dónde está el repositorio de origen?
https://github.com/congdon1207/agents.md
Detalles
- Categoría
- #Documentos
- Fuente
- skills.sh
- Primera vez visto
- 2026-02-05