·ai-multimodal
#

ai-multimodal

Elabora e genera contenuti multimediali utilizzando l'API Google Gemini. Le funzionalità includono analisi di file audio (trascrizione con timestamp, riepilogo, comprensione del parlato, analisi di musica/suono fino a 9,5 ore), comprensione di immagini (sottotitoli, rilevamento di oggetti, OCR, domande e risposte visive, segmentazione), elaborazione di video (rilevamento di scene, domande e risposte, analisi temporale, URL di YouTube, fino a 6 ore), estrazione da documenti (tabelle PDF, moduli, grafici, diagrammi, multipagina), generazione di immagini (da testo a immagine, modifica, composizione, perfezionamento). Da utilizzare quando si lavora con file audio/video, si analizzano immagini o screenshot, si elaborano documenti PDF, si estraggono dati strutturati da contenuti multimediali, si creano immagini da istruzioni di testo o si implementano funzionalità AI multimodali. Supporta più modelli (Gemini 2.5/2.0) con finestre di contesto fino a 2 milioni di token.

18Installazioni·1Tendenza·@jackspace

Installazione

$npx skills add https://github.com/jackspace/claudeskillz --skill ai-multimodal

Come installare ai-multimodal

Installa rapidamente la skill AI ai-multimodal nel tuo ambiente di sviluppo tramite riga di comando

  1. Apri il terminale: Apri il tuo terminale o strumento da riga di comando (Terminal, iTerm, Windows Terminal, ecc.)
  2. Esegui il comando di installazione: Copia ed esegui questo comando: npx skills add https://github.com/jackspace/claudeskillz --skill ai-multimodal
  3. Verifica l'installazione: Dopo l'installazione, la skill verrà configurata automaticamente nel tuo ambiente AI di coding e sarà pronta all'uso in Claude Code, Cursor o OpenClaw

Fonte: jackspace/claudeskillz.

Process audio, images, videos, documents, and generate images using Google Gemini's multimodal API. Unified interface for all multimedia content understanding and generation.

| Task | Audio | Image | Video | Document | Generation |

| Transcription | ✓ | - | ✓ | - | - | | Summarization | ✓ | ✓ | ✓ | ✓ | - | | Q&A | ✓ | ✓ | ✓ | ✓ | - | | Object Detection | - | ✓ | ✓ | - | - | | Text Extraction | - | ✓ | - | ✓ | - | | Structured Output | ✓ | ✓ | ✓ | ✓ | - | | Creation | TTS | - | - | - | ✓ | | Timestamps | ✓ | - | ✓ | - | - | | Segmentation | - | ✓ | - | - | - |

Fatti (pronti per citazione)

Campi e comandi stabili per citazioni AI/ricerca.

Comando di installazione
npx skills add https://github.com/jackspace/claudeskillz --skill ai-multimodal
Categoria
#Documenti
Verificato
Prima apparizione
2026-02-17
Aggiornato
2026-03-10

Browse more skills from jackspace/claudeskillz

Risposte rapide

Che cos'è ai-multimodal?

Elabora e genera contenuti multimediali utilizzando l'API Google Gemini. Le funzionalità includono analisi di file audio (trascrizione con timestamp, riepilogo, comprensione del parlato, analisi di musica/suono fino a 9,5 ore), comprensione di immagini (sottotitoli, rilevamento di oggetti, OCR, domande e risposte visive, segmentazione), elaborazione di video (rilevamento di scene, domande e risposte, analisi temporale, URL di YouTube, fino a 6 ore), estrazione da documenti (tabelle PDF, moduli, grafici, diagrammi, multipagina), generazione di immagini (da testo a immagine, modifica, composizione, perfezionamento). Da utilizzare quando si lavora con file audio/video, si analizzano immagini o screenshot, si elaborano documenti PDF, si estraggono dati strutturati da contenuti multimediali, si creano immagini da istruzioni di testo o si implementano funzionalità AI multimodali. Supporta più modelli (Gemini 2.5/2.0) con finestre di contesto fino a 2 milioni di token. Fonte: jackspace/claudeskillz.

Come installo ai-multimodal?

Apri il tuo terminale o strumento da riga di comando (Terminal, iTerm, Windows Terminal, ecc.) Copia ed esegui questo comando: npx skills add https://github.com/jackspace/claudeskillz --skill ai-multimodal Dopo l'installazione, la skill verrà configurata automaticamente nel tuo ambiente AI di coding e sarà pronta all'uso in Claude Code, Cursor o OpenClaw

Dov'è il repository sorgente?

https://github.com/jackspace/claudeskillz