·ai-multimodal
#

ai-multimodal

mrgoonie/claudekit-skills

Traitez et générez du contenu multimédia à l'aide de l'API Google Gemini. Les capacités incluent l'analyse de fichiers audio (transcription avec horodatage, résumé, compréhension de la parole, analyse musique/son jusqu'à 9,5 heures), la compréhension des images (sous-titres, détection d'objets, OCR, questions-réponses visuelles, segmentation), le traitement de vidéos (détection de scène, questions-réponses, analyse temporelle, URL YouTube, jusqu'à 6 heures), l'extraction de documents (tableaux PDF, formulaires, graphiques, diagrammes, multipages), la génération d'images (texte à image, édition, composition, raffinement). À utiliser lorsque vous travaillez avec des fichiers audio/vidéo, analysez des images ou des captures d'écran, traitez des documents PDF, extrayez des données structurées à partir de médias, créez des images à partir d'invites de texte ou implémentez des fonctionnalités d'IA multimodales. Prend en charge plusieurs modèles (Gemini 2.5/2.0) avec des fenêtres contextuelles jusqu'à 2 millions de jetons.

120Installations·4Tendance·@mrgoonie

Installation

$npx skills add https://github.com/mrgoonie/claudekit-skills --skill ai-multimodal

SKILL.md

Process audio, images, videos, documents, and generate images using Google Gemini's multimodal API. Unified interface for all multimedia content understanding and generation.

| Task | Audio | Image | Video | Document | Generation |

| Transcription | ✓ | - | ✓ | - | - | | Summarization | ✓ | ✓ | ✓ | ✓ | - | | Q&A | ✓ | ✓ | ✓ | ✓ | - | | Object Detection | - | ✓ | ✓ | - | - | | Text Extraction | - | ✓ | - | ✓ | - | | Structured Output | ✓ | ✓ | ✓ | ✓ | - | | Creation | TTS | - | - | - | ✓ | | Timestamps | ✓ | - | ✓ | - | - | | Segmentation | - | ✓ | - | - | - |

Voir l'original

Faits (prêts à citer)

Champs et commandes stables pour les citations IA/recherche.

Commande d'installation
npx skills add https://github.com/mrgoonie/claudekit-skills --skill ai-multimodal
Catégorie
#Documents
Vérifié
Première apparition
2026-02-01
Mis à jour
2026-02-18

Réponses rapides

Qu'est-ce que ai-multimodal ?

Traitez et générez du contenu multimédia à l'aide de l'API Google Gemini. Les capacités incluent l'analyse de fichiers audio (transcription avec horodatage, résumé, compréhension de la parole, analyse musique/son jusqu'à 9,5 heures), la compréhension des images (sous-titres, détection d'objets, OCR, questions-réponses visuelles, segmentation), le traitement de vidéos (détection de scène, questions-réponses, analyse temporelle, URL YouTube, jusqu'à 6 heures), l'extraction de documents (tableaux PDF, formulaires, graphiques, diagrammes, multipages), la génération d'images (texte à image, édition, composition, raffinement). À utiliser lorsque vous travaillez avec des fichiers audio/vidéo, analysez des images ou des captures d'écran, traitez des documents PDF, extrayez des données structurées à partir de médias, créez des images à partir d'invites de texte ou implémentez des fonctionnalités d'IA multimodales. Prend en charge plusieurs modèles (Gemini 2.5/2.0) avec des fenêtres contextuelles jusqu'à 2 millions de jetons. Source : mrgoonie/claudekit-skills.

Comment installer ai-multimodal ?

Ouvrez votre terminal ou outil de ligne de commande (Terminal, iTerm, Windows Terminal, etc.) Copiez et exécutez cette commande : npx skills add https://github.com/mrgoonie/claudekit-skills --skill ai-multimodal Une fois installé, le skill sera automatiquement configuré dans votre environnement de programmation IA et prêt à être utilisé dans Claude Code ou Cursor

Où se trouve le dépôt source ?

https://github.com/mrgoonie/claudekit-skills