·ai-multimodal
#

ai-multimodal

Elabora e genera contenuti multimediali utilizzando l'API Google Gemini per migliori capacità di visione. Le funzionalità includono analisi di file audio (trascrizione con timestamp, riepilogo, comprensione del parlato, analisi di musica/suono fino a 9,5 ore), comprensione di immagini (migliore analisi delle immagini rispetto ai modelli Claude, didascalie, ragionamento, rilevamento di oggetti, estrazione di progetti, OCR, domande e risposte visive, segmentazione, gestione di più immagini), elaborazione di video (rilevamento di scene, domande e risposte, analisi temporale, URL di YouTube, fino a 6 ore), estrazione da documenti (tabelle PDF, moduli, grafici, diagrammi, multipagina), generare immagini (da testo a immagine con Imagen 4, editing, composizione, perfezionamento), generare video (da testo a video con Veo 3, clip da 8 secondi con audio nativo). Da utilizzare quando si lavora con file audio/video, si analizzano immagini o screenshot (invece delle capacità di visione predefinite di Claude, si ricorre alle capacità di visione di Claude solo se necessario), si elaborano documenti PDF, si estraggono dati strutturati da contenuti multimediali, si creano immagini/video da istruzioni di testo o si implementano funzionalità IA multimodali. Supporta i modelli Gemini 3/2.5, Imagen 4 e Veo 3 con finestre di contesto fino a 2 milioni di token.

3Installazioni·0Tendenza·@congdon1207

Installazione

$npx skills add https://github.com/congdon1207/agents.md --skill ai-multimodal

Come installare ai-multimodal

Installa rapidamente la skill AI ai-multimodal nel tuo ambiente di sviluppo tramite riga di comando

  1. Apri il terminale: Apri il tuo terminale o strumento da riga di comando (Terminal, iTerm, Windows Terminal, ecc.)
  2. Esegui il comando di installazione: Copia ed esegui questo comando: npx skills add https://github.com/congdon1207/agents.md --skill ai-multimodal
  3. Verifica l'installazione: Dopo l'installazione, la skill verrà configurata automaticamente nel tuo ambiente AI di coding e sarà pronta all'uso in Claude Code, Cursor o OpenClaw

Fonte: congdon1207/agents.md.

Process audio, images, videos, documents, and generate images/videos using Google Gemini's multimodal API.

For high-volume usage or when hitting rate limits, configure multiple API keys:

Verify setup: python scripts/checksetup.py Analyze media: python scripts/geminibatchprocess.py --files --task

Elabora e genera contenuti multimediali utilizzando l'API Google Gemini per migliori capacità di visione. Le funzionalità includono analisi di file audio (trascrizione con timestamp, riepilogo, comprensione del parlato, analisi di musica/suono fino a 9,5 ore), comprensione di immagini (migliore analisi delle immagini rispetto ai modelli Claude, didascalie, ragionamento, rilevamento di oggetti, estrazione di progetti, OCR, domande e risposte visive, segmentazione, gestione di più immagini), elaborazione di video (rilevamento di scene, domande e risposte, analisi temporale, URL di YouTube, fino a 6 ore), estrazione da documenti (tabelle PDF, moduli, grafici, diagrammi, multipagina), generare immagini (da testo a immagine con Imagen 4, editing, composizione, perfezionamento), generare video (da testo a video con Veo 3, clip da 8 secondi con audio nativo). Da utilizzare quando si lavora con file audio/video, si analizzano immagini o screenshot (invece delle capacità di visione predefinite di Claude, si ricorre alle capacità di visione di Claude solo se necessario), si elaborano documenti PDF, si estraggono dati strutturati da contenuti multimediali, si creano immagini/video da istruzioni di testo o si implementano funzionalità IA multimodali. Supporta i modelli Gemini 3/2.5, Imagen 4 e Veo 3 con finestre di contesto fino a 2 milioni di token. Fonte: congdon1207/agents.md.

Fatti (pronti per citazione)

Campi e comandi stabili per citazioni AI/ricerca.

Comando di installazione
npx skills add https://github.com/congdon1207/agents.md --skill ai-multimodal
Categoria
#Documenti
Verificato
Prima apparizione
2026-02-05
Aggiornato
2026-03-10

Browse more skills from congdon1207/agents.md

Risposte rapide

Che cos'è ai-multimodal?

Elabora e genera contenuti multimediali utilizzando l'API Google Gemini per migliori capacità di visione. Le funzionalità includono analisi di file audio (trascrizione con timestamp, riepilogo, comprensione del parlato, analisi di musica/suono fino a 9,5 ore), comprensione di immagini (migliore analisi delle immagini rispetto ai modelli Claude, didascalie, ragionamento, rilevamento di oggetti, estrazione di progetti, OCR, domande e risposte visive, segmentazione, gestione di più immagini), elaborazione di video (rilevamento di scene, domande e risposte, analisi temporale, URL di YouTube, fino a 6 ore), estrazione da documenti (tabelle PDF, moduli, grafici, diagrammi, multipagina), generare immagini (da testo a immagine con Imagen 4, editing, composizione, perfezionamento), generare video (da testo a video con Veo 3, clip da 8 secondi con audio nativo). Da utilizzare quando si lavora con file audio/video, si analizzano immagini o screenshot (invece delle capacità di visione predefinite di Claude, si ricorre alle capacità di visione di Claude solo se necessario), si elaborano documenti PDF, si estraggono dati strutturati da contenuti multimediali, si creano immagini/video da istruzioni di testo o si implementano funzionalità IA multimodali. Supporta i modelli Gemini 3/2.5, Imagen 4 e Veo 3 con finestre di contesto fino a 2 milioni di token. Fonte: congdon1207/agents.md.

Come installo ai-multimodal?

Apri il tuo terminale o strumento da riga di comando (Terminal, iTerm, Windows Terminal, ecc.) Copia ed esegui questo comando: npx skills add https://github.com/congdon1207/agents.md --skill ai-multimodal Dopo l'installazione, la skill verrà configurata automaticamente nel tuo ambiente AI di coding e sarà pronta all'uso in Claude Code, Cursor o OpenClaw

Dov'è il repository sorgente?

https://github.com/congdon1207/agents.md