ai-multimodal
✓Traitez et générez du contenu multimédia à l'aide de l'API Google Gemini. Les capacités incluent l'analyse de fichiers audio (transcription avec horodatage, résumé, compréhension de la parole, analyse musique/son jusqu'à 9,5 heures), la compréhension des images (sous-titres, détection d'objets, OCR, questions-réponses visuelles, segmentation), le traitement de vidéos (détection de scène, questions-réponses, analyse temporelle, URL YouTube, jusqu'à 6 heures), l'extraction de documents (tableaux PDF, formulaires, graphiques, diagrammes, multipages), la génération d'images (texte à image, édition, composition, raffinement). À utiliser lorsque vous travaillez avec des fichiers audio/vidéo, analysez des images ou des captures d'écran, traitez des documents PDF, extrayez des données structurées à partir de médias, créez des images à partir d'invites de texte ou implémentez des fonctionnalités d'IA multimodales. Prend en charge plusieurs modèles (Gemini 2.5/2.0) avec des fenêtres contextuelles jusqu'à 2 millions de jetons.
Installation
SKILL.md
Process audio, images, videos, documents, and generate images using Google Gemini's multimodal API. Unified interface for all multimedia content understanding and generation.
| Task | Audio | Image | Video | Document | Generation |
| Transcription | ✓ | - | ✓ | - | - | | Summarization | ✓ | ✓ | ✓ | ✓ | - | | Q&A | ✓ | ✓ | ✓ | ✓ | - | | Object Detection | - | ✓ | ✓ | - | - | | Text Extraction | - | ✓ | - | ✓ | - | | Structured Output | ✓ | ✓ | ✓ | ✓ | - | | Creation | TTS | - | - | - | ✓ | | Timestamps | ✓ | - | ✓ | - | - | | Segmentation | - | ✓ | - | - | - |
Faits (prêts à citer)
Champs et commandes stables pour les citations IA/recherche.
- Commande d'installation
npx skills add https://github.com/microck/ordinary-claude-skills --skill ai-multimodal- Catégorie
- #Documents
- Vérifié
- ✓
- Première apparition
- 2026-02-01
- Mis à jour
- 2026-02-18
Réponses rapides
Qu'est-ce que ai-multimodal ?
Traitez et générez du contenu multimédia à l'aide de l'API Google Gemini. Les capacités incluent l'analyse de fichiers audio (transcription avec horodatage, résumé, compréhension de la parole, analyse musique/son jusqu'à 9,5 heures), la compréhension des images (sous-titres, détection d'objets, OCR, questions-réponses visuelles, segmentation), le traitement de vidéos (détection de scène, questions-réponses, analyse temporelle, URL YouTube, jusqu'à 6 heures), l'extraction de documents (tableaux PDF, formulaires, graphiques, diagrammes, multipages), la génération d'images (texte à image, édition, composition, raffinement). À utiliser lorsque vous travaillez avec des fichiers audio/vidéo, analysez des images ou des captures d'écran, traitez des documents PDF, extrayez des données structurées à partir de médias, créez des images à partir d'invites de texte ou implémentez des fonctionnalités d'IA multimodales. Prend en charge plusieurs modèles (Gemini 2.5/2.0) avec des fenêtres contextuelles jusqu'à 2 millions de jetons. Source : microck/ordinary-claude-skills.
Comment installer ai-multimodal ?
Ouvrez votre terminal ou outil de ligne de commande (Terminal, iTerm, Windows Terminal, etc.) Copiez et exécutez cette commande : npx skills add https://github.com/microck/ordinary-claude-skills --skill ai-multimodal Une fois installé, le skill sera automatiquement configuré dans votre environnement de programmation IA et prêt à être utilisé dans Claude Code ou Cursor
Où se trouve le dépôt source ?
https://github.com/microck/ordinary-claude-skills
Détails
- Catégorie
- #Documents
- Source
- skills.sh
- Première apparition
- 2026-02-01