¿Cómo instalo ai-multimodal?

Abre tu terminal o herramienta de línea de comandos (Terminal, iTerm, Windows Terminal, etc.) Copia y ejecuta este comando: npx skills add https://github.com/samhvw8/dot-claude --skill ai-multimodal Una vez instalado, el skill se configurará automáticamente en tu entorno de programación con IA y estará listo para usar en Claude Code o Cursor

·ai-multimodal

ai-multimodal

Name: ai-multimodal
Author: samhvw8

✓

samhvw8/dot-claude

Procesamiento de IA multimodal a través de la API de Google Gemini (contexto de tokens de 2 millones). Capacidades: audio (transcripción, 9,5 horas como máximo, resumen, análisis de música), imágenes (subtítulos, OCR, detección de objetos, segmentación, preguntas y respuestas visuales), vídeo (detección de escenas, 6 horas como máximo, URL de YouTube, análisis temporal), documentos (extracción de PDF, tablas, formularios, gráficos), generación de imágenes (texto a imagen, edición). Acciones: transcribir, analizar, extraer, subtitular, detectar, segmentar, generar a partir de medios. Palabras clave: API Gemini, transcripción de audio, subtítulos de imágenes, OCR, detección de objetos, análisis de video, extracción de PDF, texto a imagen, multimodal, reconocimiento de voz, preguntas y respuestas visuales, detección de escenas, transcripción de YouTube, extracción de tablas, procesamiento de formularios, generación de imágenes, imagen. Úselo cuando: transcribir audio/video, analizar imágenes/capturas de pantalla, extraer datos de archivos PDF, procesar videos de YouTube, generar imágenes a partir de texto, implementar funciones de IA multimodal.

samhvw8·ai·multimodal

11Instalaciones·0Tendencia·@samhvw8