Elabora e genera contenuti multimediali utilizzando l'API Google Gemini. Le funzionalità includono analisi di file audio (trascrizione con timestamp, riepilogo, comprensione del parlato, analisi di musica/suono fino a 9,5 ore), comprensione di immagini (sottotitoli, rilevamento di oggetti, OCR, domande e risposte visive, segmentazione), elaborazione di video (rilevamento di scene, domande e risposte, analisi temporale, URL di YouTube, fino a 6 ore), estrazione da documenti (tabelle PDF, moduli, grafici, diagrammi, multipagina), generazione di immagini (da testo a immagine, modifica, composizione, perfezionamento). Da utilizzare quando si lavora con file audio/video, si analizzano immagini o screenshot, si elaborano documenti PDF, si estraggono dati strutturati da contenuti multimediali, si creano immagini da istruzioni di testo o si implementano funzionalità AI multimodali. Supporta più modelli (Gemini 2.5/2.0) con finestre di contesto fino a 2 milioni di token.
Installa rapidamente la skill AI ai-multimodal nel tuo ambiente di sviluppo tramite riga di comando
Apri il terminale: Apri il tuo terminale o strumento da riga di comando (Terminal, iTerm, Windows Terminal, ecc.)
Esegui il comando di installazione: Copia ed esegui questo comando: npx skills add https://github.com/jackspace/claudeskillz --skill ai-multimodal
Verifica l'installazione: Dopo l'installazione, la skill verrà configurata automaticamente nel tuo ambiente AI di coding e sarà pronta all'uso in Claude Code, Cursor o OpenClaw
Process audio, images, videos, documents, and generate images using Google Gemini's multimodal API. Unified interface for all multimedia content understanding and generation.
Elabora e genera contenuti multimediali utilizzando l'API Google Gemini. Le funzionalità includono analisi di file audio (trascrizione con timestamp, riepilogo, comprensione del parlato, analisi di musica/suono fino a 9,5 ore), comprensione di immagini (sottotitoli, rilevamento di oggetti, OCR, domande e risposte visive, segmentazione), elaborazione di video (rilevamento di scene, domande e risposte, analisi temporale, URL di YouTube, fino a 6 ore), estrazione da documenti (tabelle PDF, moduli, grafici, diagrammi, multipagina), generazione di immagini (da testo a immagine, modifica, composizione, perfezionamento). Da utilizzare quando si lavora con file audio/video, si analizzano immagini o screenshot, si elaborano documenti PDF, si estraggono dati strutturati da contenuti multimediali, si creano immagini da istruzioni di testo o si implementano funzionalità AI multimodali. Supporta più modelli (Gemini 2.5/2.0) con finestre di contesto fino a 2 milioni di token. Fonte: jackspace/claudeskillz.
Come installo ai-multimodal?
Apri il tuo terminale o strumento da riga di comando (Terminal, iTerm, Windows Terminal, ecc.) Copia ed esegui questo comando: npx skills add https://github.com/jackspace/claudeskillz --skill ai-multimodal Dopo l'installazione, la skill verrà configurata automaticamente nel tuo ambiente AI di coding e sarà pronta all'uso in Claude Code, Cursor o OpenClaw