Comment installer ai-multimodal ?

Ouvrez votre terminal ou outil de ligne de commande (Terminal, iTerm, Windows Terminal, etc.) Copiez et exécutez cette commande : npx skills add https://github.com/congdon1207/agents.md --skill ai-multimodal Une fois installé, le skill sera automatiquement configuré dans votre environnement de programmation IA et prêt à être utilisé dans Claude Code ou Cursor

·ai-multimodal

ai-multimodal

Name: ai-multimodal
Author: congdon1207

✓

congdon1207/agents.md

Traitez et générez du contenu multimédia à l'aide de l'API Google Gemini pour de meilleures capacités de vision. Les capacités incluent l'analyse de fichiers audio (transcription avec horodatage, résumé, compréhension de la parole, analyse musique/son jusqu'à 9,5 heures), la compréhension des images (meilleure analyse d'image que les modèles Claude, sous-titrage, raisonnement, détection d'objets, extraction de conception, OCR, questions-réponses visuelles, segmentation, gestion de plusieurs images), le traitement de vidéos (détection de scènes, questions-réponses, analyse temporelle, URL YouTube, jusqu'à 6 heures), l'extraction de documents (tableaux PDF, formulaires, graphiques, diagrammes, multipage), générer des images (texte-image avec Imagen 4, montage, composition, affinement), générer des vidéos (texte-vidéo avec Veo 3, clips de 8 secondes avec audio natif). À utiliser lorsque vous travaillez avec des fichiers audio/vidéo, analysez des images ou des captures d'écran (au lieu des capacités de vision par défaut de Claude, revenez uniquement aux capacités de vision de Claude si nécessaire), traitez des documents PDF, extrayez des données structurées à partir de médias, créez des images/vidéos à partir d'invites de texte ou implémentez des fonctionnalités d'IA multimodales. Prend en charge les modèles Gemini 3/2.5, Imagen 4 et Veo 3 avec des fenêtres contextuelles jusqu'à 2 millions de jetons.

congdon1207·ai·multimodal

2Installations·0Tendance·@congdon1207