ai-multimodal
✓Procesamiento de IA multimodal a través de la API de Google Gemini (contexto de tokens de 2 millones). Capacidades: audio (transcripción, 9,5 horas como máximo, resumen, análisis de música), imágenes (subtítulos, OCR, detección de objetos, segmentación, preguntas y respuestas visuales), vídeo (detección de escenas, 6 horas como máximo, URL de YouTube, análisis temporal), documentos (extracción de PDF, tablas, formularios, gráficos), generación de imágenes (texto a imagen, edición). Acciones: transcribir, analizar, extraer, subtitular, detectar, segmentar, generar a partir de medios. Palabras clave: API Gemini, transcripción de audio, subtítulos de imágenes, OCR, detección de objetos, análisis de video, extracción de PDF, texto a imagen, multimodal, reconocimiento de voz, preguntas y respuestas visuales, detección de escenas, transcripción de YouTube, extracción de tablas, procesamiento de formularios, generación de imágenes, imagen. Úselo cuando: transcribir audio/video, analizar imágenes/capturas de pantalla, extraer datos de archivos PDF, procesar videos de YouTube, generar imágenes a partir de texto, implementar funciones de IA multimodal.
Instalación
SKILL.md
Process audio, images, videos, documents, and generate images using Google Gemini's multimodal API. Unified interface for all multimedia content understanding and generation.
| Task | Audio | Image | Video | Document | Generation |
| Transcription | ✓ | - | ✓ | - | - | | Summarization | ✓ | ✓ | ✓ | ✓ | - | | Q&A | ✓ | ✓ | ✓ | ✓ | - | | Object Detection | - | ✓ | ✓ | - | - | | Text Extraction | - | ✓ | - | ✓ | - | | Structured Output | ✓ | ✓ | ✓ | ✓ | - | | Creation | TTS | - | - | - | ✓ | | Timestamps | ✓ | - | ✓ | - | - | | Segmentation | - | ✓ | - | - | - |
Datos (listos para citar)
Campos y comandos estables para citas de IA/búsqueda.
- Comando de instalación
npx skills add https://github.com/samhvw8/dot-claude --skill ai-multimodal- Fuente
- samhvw8/dot-claude
- Categoría
- #Documentos
- Verificado
- ✓
- Primera vez visto
- 2026-02-01
- Actualizado
- 2026-02-18
Respuestas rápidas
¿Qué es ai-multimodal?
Procesamiento de IA multimodal a través de la API de Google Gemini (contexto de tokens de 2 millones). Capacidades: audio (transcripción, 9,5 horas como máximo, resumen, análisis de música), imágenes (subtítulos, OCR, detección de objetos, segmentación, preguntas y respuestas visuales), vídeo (detección de escenas, 6 horas como máximo, URL de YouTube, análisis temporal), documentos (extracción de PDF, tablas, formularios, gráficos), generación de imágenes (texto a imagen, edición). Acciones: transcribir, analizar, extraer, subtitular, detectar, segmentar, generar a partir de medios. Palabras clave: API Gemini, transcripción de audio, subtítulos de imágenes, OCR, detección de objetos, análisis de video, extracción de PDF, texto a imagen, multimodal, reconocimiento de voz, preguntas y respuestas visuales, detección de escenas, transcripción de YouTube, extracción de tablas, procesamiento de formularios, generación de imágenes, imagen. Úselo cuando: transcribir audio/video, analizar imágenes/capturas de pantalla, extraer datos de archivos PDF, procesar videos de YouTube, generar imágenes a partir de texto, implementar funciones de IA multimodal. Fuente: samhvw8/dot-claude.
¿Cómo instalo ai-multimodal?
Abre tu terminal o herramienta de línea de comandos (Terminal, iTerm, Windows Terminal, etc.) Copia y ejecuta este comando: npx skills add https://github.com/samhvw8/dot-claude --skill ai-multimodal Una vez instalado, el skill se configurará automáticamente en tu entorno de programación con IA y estará listo para usar en Claude Code o Cursor
¿Dónde está el repositorio de origen?
https://github.com/samhvw8/dot-claude
Detalles
- Categoría
- #Documentos
- Fuente
- skills.sh
- Primera vez visto
- 2026-02-01