·ai-multimodal
#

ai-multimodal

congdon1207/agents.md

Traitez et générez du contenu multimédia à l'aide de l'API Google Gemini pour de meilleures capacités de vision. Les capacités incluent l'analyse de fichiers audio (transcription avec horodatage, résumé, compréhension de la parole, analyse musique/son jusqu'à 9,5 heures), la compréhension des images (meilleure analyse d'image que les modèles Claude, sous-titrage, raisonnement, détection d'objets, extraction de conception, OCR, questions-réponses visuelles, segmentation, gestion de plusieurs images), le traitement de vidéos (détection de scènes, questions-réponses, analyse temporelle, URL YouTube, jusqu'à 6 heures), l'extraction de documents (tableaux PDF, formulaires, graphiques, diagrammes, multipage), générer des images (texte-image avec Imagen 4, montage, composition, affinement), générer des vidéos (texte-vidéo avec Veo 3, clips de 8 secondes avec audio natif). À utiliser lorsque vous travaillez avec des fichiers audio/vidéo, analysez des images ou des captures d'écran (au lieu des capacités de vision par défaut de Claude, revenez uniquement aux capacités de vision de Claude si nécessaire), traitez des documents PDF, extrayez des données structurées à partir de médias, créez des images/vidéos à partir d'invites de texte ou implémentez des fonctionnalités d'IA multimodales. Prend en charge les modèles Gemini 3/2.5, Imagen 4 et Veo 3 avec des fenêtres contextuelles jusqu'à 2 millions de jetons.

2Installations·0Tendance·@congdon1207

Installation

$npx skills add https://github.com/congdon1207/agents.md --skill ai-multimodal

SKILL.md

Process audio, images, videos, documents, and generate images/videos using Google Gemini's multimodal API.

For high-volume usage or when hitting rate limits, configure multiple API keys:

Verify setup: python scripts/checksetup.py Analyze media: python scripts/geminibatchprocess.py --files --task

Traitez et générez du contenu multimédia à l'aide de l'API Google Gemini pour de meilleures capacités de vision. Les capacités incluent l'analyse de fichiers audio (transcription avec horodatage, résumé, compréhension de la parole, analyse musique/son jusqu'à 9,5 heures), la compréhension des images (meilleure analyse d'image que les modèles Claude, sous-titrage, raisonnement, détection d'objets, extraction de conception, OCR, questions-réponses visuelles, segmentation, gestion de plusieurs images), le traitement de vidéos (détection de scènes, questions-réponses, analyse temporelle, URL YouTube, jusqu'à 6 heures), l'extraction de documents (tableaux PDF, formulaires, graphiques, diagrammes, multipage), générer des images (texte-image avec Imagen 4, montage, composition, affinement), générer des vidéos (texte-vidéo avec Veo 3, clips de 8 secondes avec audio natif). À utiliser lorsque vous travaillez avec des fichiers audio/vidéo, analysez des images ou des captures d'écran (au lieu des capacités de vision par défaut de Claude, revenez uniquement aux capacités de vision de Claude si nécessaire), traitez des documents PDF, extrayez des données structurées à partir de médias, créez des images/vidéos à partir d'invites de texte ou implémentez des fonctionnalités d'IA multimodales. Prend en charge les modèles Gemini 3/2.5, Imagen 4 et Veo 3 avec des fenêtres contextuelles jusqu'à 2 millions de jetons. Source : congdon1207/agents.md.

Voir l'original

Faits (prêts à citer)

Champs et commandes stables pour les citations IA/recherche.

Commande d'installation
npx skills add https://github.com/congdon1207/agents.md --skill ai-multimodal
Catégorie
#Documents
Vérifié
Première apparition
2026-02-05
Mis à jour
2026-02-18

Réponses rapides

Qu'est-ce que ai-multimodal ?

Traitez et générez du contenu multimédia à l'aide de l'API Google Gemini pour de meilleures capacités de vision. Les capacités incluent l'analyse de fichiers audio (transcription avec horodatage, résumé, compréhension de la parole, analyse musique/son jusqu'à 9,5 heures), la compréhension des images (meilleure analyse d'image que les modèles Claude, sous-titrage, raisonnement, détection d'objets, extraction de conception, OCR, questions-réponses visuelles, segmentation, gestion de plusieurs images), le traitement de vidéos (détection de scènes, questions-réponses, analyse temporelle, URL YouTube, jusqu'à 6 heures), l'extraction de documents (tableaux PDF, formulaires, graphiques, diagrammes, multipage), générer des images (texte-image avec Imagen 4, montage, composition, affinement), générer des vidéos (texte-vidéo avec Veo 3, clips de 8 secondes avec audio natif). À utiliser lorsque vous travaillez avec des fichiers audio/vidéo, analysez des images ou des captures d'écran (au lieu des capacités de vision par défaut de Claude, revenez uniquement aux capacités de vision de Claude si nécessaire), traitez des documents PDF, extrayez des données structurées à partir de médias, créez des images/vidéos à partir d'invites de texte ou implémentez des fonctionnalités d'IA multimodales. Prend en charge les modèles Gemini 3/2.5, Imagen 4 et Veo 3 avec des fenêtres contextuelles jusqu'à 2 millions de jetons. Source : congdon1207/agents.md.

Comment installer ai-multimodal ?

Ouvrez votre terminal ou outil de ligne de commande (Terminal, iTerm, Windows Terminal, etc.) Copiez et exécutez cette commande : npx skills add https://github.com/congdon1207/agents.md --skill ai-multimodal Une fois installé, le skill sera automatiquement configuré dans votre environnement de programmation IA et prêt à être utilisé dans Claude Code ou Cursor

Où se trouve le dépôt source ?

https://github.com/congdon1207/agents.md