·ai-multimodal

ai-multimodal

Name: ai-multimodal
Author: congdon1207

✓

Procese y genere contenido multimedia utilizando la API de Google Gemini para obtener mejores capacidades de visión. Las capacidades incluyen analizar archivos de audio (transcripción con marcas de tiempo, resúmenes, comprensión del habla, análisis de música/sonido hasta 9,5 horas), comprender imágenes (mejor análisis de imágenes que los modelos Claude, subtítulos, razonamiento, detección de objetos, extracción de diseños, OCR, preguntas y respuestas visuales, segmentación, manejo de múltiples imágenes), procesar videos (detección de escenas, preguntas y respuestas, análisis temporal, URL de YouTube, hasta 6 horas), extraer de documentos (tablas PDF, formularios, gráficos, diagramas, multipágina), generar imágenes (texto a imagen con Imagen 4, edición, composición, refinamiento), generar videos (texto a video con Veo 3, clips de 8 segundos con audio nativo). Úselo cuando trabaje con archivos de audio/video, analice imágenes o capturas de pantalla (en lugar de las capacidades de visión predeterminadas de Claude, solo recurra a las capacidades de visión de Claude si es necesario), procese documentos PDF, extraiga datos estructurados de medios, cree imágenes/videos a partir de indicaciones de texto o implemente funciones de IA multimodal. Admite los modelos Gemini 3/2.5, Imagen 4 y Veo 3 con ventanas de contexto de hasta 2 millones de tokens.

congdon1207·ai·multimodal

2Instalaciones·0Tendencia·@congdon1207