·ai-multimodal
#

ai-multimodal

samhvw8/dot-claude

Procesamiento de IA multimodal a través de la API de Google Gemini (contexto de tokens de 2 millones). Capacidades: audio (transcripción, 9,5 horas como máximo, resumen, análisis de música), imágenes (subtítulos, OCR, detección de objetos, segmentación, preguntas y respuestas visuales), vídeo (detección de escenas, 6 horas como máximo, URL de YouTube, análisis temporal), documentos (extracción de PDF, tablas, formularios, gráficos), generación de imágenes (texto a imagen, edición). Acciones: transcribir, analizar, extraer, subtitular, detectar, segmentar, generar a partir de medios. Palabras clave: API Gemini, transcripción de audio, subtítulos de imágenes, OCR, detección de objetos, análisis de video, extracción de PDF, texto a imagen, multimodal, reconocimiento de voz, preguntas y respuestas visuales, detección de escenas, transcripción de YouTube, extracción de tablas, procesamiento de formularios, generación de imágenes, imagen. Úselo cuando: transcribir audio/video, analizar imágenes/capturas de pantalla, extraer datos de archivos PDF, procesar videos de YouTube, generar imágenes a partir de texto, implementar funciones de IA multimodal.

11Instalaciones·0Tendencia·@samhvw8

Instalación

$npx skills add https://github.com/samhvw8/dot-claude --skill ai-multimodal

SKILL.md

Process audio, images, videos, documents, and generate images using Google Gemini's multimodal API. Unified interface for all multimedia content understanding and generation.

| Task | Audio | Image | Video | Document | Generation |

| Transcription | ✓ | - | ✓ | - | - | | Summarization | ✓ | ✓ | ✓ | ✓ | - | | Q&A | ✓ | ✓ | ✓ | ✓ | - | | Object Detection | - | ✓ | ✓ | - | - | | Text Extraction | - | ✓ | - | ✓ | - | | Structured Output | ✓ | ✓ | ✓ | ✓ | - | | Creation | TTS | - | - | - | ✓ | | Timestamps | ✓ | - | ✓ | - | - | | Segmentation | - | ✓ | - | - | - |

Ver original

Datos (listos para citar)

Campos y comandos estables para citas de IA/búsqueda.

Comando de instalación
npx skills add https://github.com/samhvw8/dot-claude --skill ai-multimodal
Categoría
#Documentos
Verificado
Primera vez visto
2026-02-01
Actualizado
2026-02-18

Respuestas rápidas

¿Qué es ai-multimodal?

Procesamiento de IA multimodal a través de la API de Google Gemini (contexto de tokens de 2 millones). Capacidades: audio (transcripción, 9,5 horas como máximo, resumen, análisis de música), imágenes (subtítulos, OCR, detección de objetos, segmentación, preguntas y respuestas visuales), vídeo (detección de escenas, 6 horas como máximo, URL de YouTube, análisis temporal), documentos (extracción de PDF, tablas, formularios, gráficos), generación de imágenes (texto a imagen, edición). Acciones: transcribir, analizar, extraer, subtitular, detectar, segmentar, generar a partir de medios. Palabras clave: API Gemini, transcripción de audio, subtítulos de imágenes, OCR, detección de objetos, análisis de video, extracción de PDF, texto a imagen, multimodal, reconocimiento de voz, preguntas y respuestas visuales, detección de escenas, transcripción de YouTube, extracción de tablas, procesamiento de formularios, generación de imágenes, imagen. Úselo cuando: transcribir audio/video, analizar imágenes/capturas de pantalla, extraer datos de archivos PDF, procesar videos de YouTube, generar imágenes a partir de texto, implementar funciones de IA multimodal. Fuente: samhvw8/dot-claude.

¿Cómo instalo ai-multimodal?

Abre tu terminal o herramienta de línea de comandos (Terminal, iTerm, Windows Terminal, etc.) Copia y ejecuta este comando: npx skills add https://github.com/samhvw8/dot-claude --skill ai-multimodal Una vez instalado, el skill se configurará automáticamente en tu entorno de programación con IA y estará listo para usar en Claude Code o Cursor

¿Dónde está el repositorio de origen?

https://github.com/samhvw8/dot-claude