·ai-multimodal
#

ai-multimodal

samhvw8/dot-claude

Traitement de l'IA multimodale via l'API Google Gemini (contexte 2M tokens). Capacités : audio (transcription, 9,5 heures max, résumé, analyse musicale), images (sous-titres, OCR, détection d'objets, segmentation, questions-réponses visuelles), vidéo (détection de scène, 6 heures max, URL YouTube, analyse temporelle), documents (extraction PDF, tableaux, formulaires, graphiques), génération d'images (texte à image, édition). Actions : transcrire, analyser, extraire, sous-titrer, détecter, segmenter, générer à partir d'un média. Mots clés : API Gemini, transcription audio, sous-titrage d'images, OCR, détection d'objets, analyse vidéo, extraction de PDF, texte en image, multimodal, reconnaissance vocale, questions-réponses visuelles, détection de scène, transcription YouTube, extraction de tableaux, traitement de formulaires, génération d'images, Imagen. À utiliser pour : transcrire de l'audio/vidéo, analyser des images/captures d'écran, extraire des données de PDF, traiter des vidéos YouTube, générer des images à partir de texte, mettre en œuvre des fonctionnalités d'IA multimodales.

11Installations·0Tendance·@samhvw8

Installation

$npx skills add https://github.com/samhvw8/dot-claude --skill ai-multimodal

SKILL.md

Process audio, images, videos, documents, and generate images using Google Gemini's multimodal API. Unified interface for all multimedia content understanding and generation.

| Task | Audio | Image | Video | Document | Generation |

| Transcription | ✓ | - | ✓ | - | - | | Summarization | ✓ | ✓ | ✓ | ✓ | - | | Q&A | ✓ | ✓ | ✓ | ✓ | - | | Object Detection | - | ✓ | ✓ | - | - | | Text Extraction | - | ✓ | - | ✓ | - | | Structured Output | ✓ | ✓ | ✓ | ✓ | - | | Creation | TTS | - | - | - | ✓ | | Timestamps | ✓ | - | ✓ | - | - | | Segmentation | - | ✓ | - | - | - |

Voir l'original

Faits (prêts à citer)

Champs et commandes stables pour les citations IA/recherche.

Commande d'installation
npx skills add https://github.com/samhvw8/dot-claude --skill ai-multimodal
Catégorie
#Documents
Vérifié
Première apparition
2026-02-01
Mis à jour
2026-02-18

Réponses rapides

Qu'est-ce que ai-multimodal ?

Traitement de l'IA multimodale via l'API Google Gemini (contexte 2M tokens). Capacités : audio (transcription, 9,5 heures max, résumé, analyse musicale), images (sous-titres, OCR, détection d'objets, segmentation, questions-réponses visuelles), vidéo (détection de scène, 6 heures max, URL YouTube, analyse temporelle), documents (extraction PDF, tableaux, formulaires, graphiques), génération d'images (texte à image, édition). Actions : transcrire, analyser, extraire, sous-titrer, détecter, segmenter, générer à partir d'un média. Mots clés : API Gemini, transcription audio, sous-titrage d'images, OCR, détection d'objets, analyse vidéo, extraction de PDF, texte en image, multimodal, reconnaissance vocale, questions-réponses visuelles, détection de scène, transcription YouTube, extraction de tableaux, traitement de formulaires, génération d'images, Imagen. À utiliser pour : transcrire de l'audio/vidéo, analyser des images/captures d'écran, extraire des données de PDF, traiter des vidéos YouTube, générer des images à partir de texte, mettre en œuvre des fonctionnalités d'IA multimodales. Source : samhvw8/dot-claude.

Comment installer ai-multimodal ?

Ouvrez votre terminal ou outil de ligne de commande (Terminal, iTerm, Windows Terminal, etc.) Copiez et exécutez cette commande : npx skills add https://github.com/samhvw8/dot-claude --skill ai-multimodal Une fois installé, le skill sera automatiquement configuré dans votre environnement de programmation IA et prêt à être utilisé dans Claude Code ou Cursor

Où se trouve le dépôt source ?

https://github.com/samhvw8/dot-claude