ai-multimodal
✓Traitement de l'IA multimodale via l'API Google Gemini (contexte 2M tokens). Capacités : audio (transcription, 9,5 heures max, résumé, analyse musicale), images (sous-titres, OCR, détection d'objets, segmentation, questions-réponses visuelles), vidéo (détection de scène, 6 heures max, URL YouTube, analyse temporelle), documents (extraction PDF, tableaux, formulaires, graphiques), génération d'images (texte à image, édition). Actions : transcrire, analyser, extraire, sous-titrer, détecter, segmenter, générer à partir d'un média. Mots clés : API Gemini, transcription audio, sous-titrage d'images, OCR, détection d'objets, analyse vidéo, extraction de PDF, texte en image, multimodal, reconnaissance vocale, questions-réponses visuelles, détection de scène, transcription YouTube, extraction de tableaux, traitement de formulaires, génération d'images, Imagen. À utiliser pour : transcrire de l'audio/vidéo, analyser des images/captures d'écran, extraire des données de PDF, traiter des vidéos YouTube, générer des images à partir de texte, mettre en œuvre des fonctionnalités d'IA multimodales.
Installation
SKILL.md
Process audio, images, videos, documents, and generate images using Google Gemini's multimodal API. Unified interface for all multimedia content understanding and generation.
| Task | Audio | Image | Video | Document | Generation |
| Transcription | ✓ | - | ✓ | - | - | | Summarization | ✓ | ✓ | ✓ | ✓ | - | | Q&A | ✓ | ✓ | ✓ | ✓ | - | | Object Detection | - | ✓ | ✓ | - | - | | Text Extraction | - | ✓ | - | ✓ | - | | Structured Output | ✓ | ✓ | ✓ | ✓ | - | | Creation | TTS | - | - | - | ✓ | | Timestamps | ✓ | - | ✓ | - | - | | Segmentation | - | ✓ | - | - | - |
Faits (prêts à citer)
Champs et commandes stables pour les citations IA/recherche.
- Commande d'installation
npx skills add https://github.com/samhvw8/dot-claude --skill ai-multimodal- Source
- samhvw8/dot-claude
- Catégorie
- #Documents
- Vérifié
- ✓
- Première apparition
- 2026-02-01
- Mis à jour
- 2026-02-18
Réponses rapides
Qu'est-ce que ai-multimodal ?
Traitement de l'IA multimodale via l'API Google Gemini (contexte 2M tokens). Capacités : audio (transcription, 9,5 heures max, résumé, analyse musicale), images (sous-titres, OCR, détection d'objets, segmentation, questions-réponses visuelles), vidéo (détection de scène, 6 heures max, URL YouTube, analyse temporelle), documents (extraction PDF, tableaux, formulaires, graphiques), génération d'images (texte à image, édition). Actions : transcrire, analyser, extraire, sous-titrer, détecter, segmenter, générer à partir d'un média. Mots clés : API Gemini, transcription audio, sous-titrage d'images, OCR, détection d'objets, analyse vidéo, extraction de PDF, texte en image, multimodal, reconnaissance vocale, questions-réponses visuelles, détection de scène, transcription YouTube, extraction de tableaux, traitement de formulaires, génération d'images, Imagen. À utiliser pour : transcrire de l'audio/vidéo, analyser des images/captures d'écran, extraire des données de PDF, traiter des vidéos YouTube, générer des images à partir de texte, mettre en œuvre des fonctionnalités d'IA multimodales. Source : samhvw8/dot-claude.
Comment installer ai-multimodal ?
Ouvrez votre terminal ou outil de ligne de commande (Terminal, iTerm, Windows Terminal, etc.) Copiez et exécutez cette commande : npx skills add https://github.com/samhvw8/dot-claude --skill ai-multimodal Une fois installé, le skill sera automatiquement configuré dans votre environnement de programmation IA et prêt à être utilisé dans Claude Code ou Cursor
Où se trouve le dépôt source ?
https://github.com/samhvw8/dot-claude
Détails
- Catégorie
- #Documents
- Source
- skills.sh
- Première apparition
- 2026-02-01