·ai-multimodal

ai-multimodal

Name: ai-multimodal
Author: microck

✓

Traitez et générez du contenu multimédia à l'aide de l'API Google Gemini. Les capacités incluent l'analyse de fichiers audio (transcription avec horodatage, résumé, compréhension de la parole, analyse musique/son jusqu'à 9,5 heures), la compréhension des images (sous-titres, détection d'objets, OCR, questions-réponses visuelles, segmentation), le traitement de vidéos (détection de scène, questions-réponses, analyse temporelle, URL YouTube, jusqu'à 6 heures), l'extraction de documents (tableaux PDF, formulaires, graphiques, diagrammes, multipages), la génération d'images (texte à image, édition, composition, raffinement). À utiliser lorsque vous travaillez avec des fichiers audio/vidéo, analysez des images ou des captures d'écran, traitez des documents PDF, extrayez des données structurées à partir de médias, créez des images à partir d'invites de texte ou implémentez des fonctionnalités d'IA multimodales. Prend en charge plusieurs modèles (Gemini 2.5/2.0) avec des fenêtres contextuelles jusqu'à 2 millions de jetons.

microck·ai·multimodal

9Installations·0Tendance·@microck