·ai-multimodal
#

ai-multimodal

Elaborazione AI multimodale tramite API Google Gemini (contesto di token 2M). Funzionalità: audio (trascrizione, massimo 9,5 ore, riepilogo, analisi musicale), immagini (sottotitoli, OCR, rilevamento di oggetti, segmentazione, domande e risposte visive), video (rilevamento di scene, massimo 6 ore, URL di YouTube, analisi temporale), documenti (estrazione PDF, tabelle, moduli, grafici), generazione di immagini (da testo a immagine, modifica). Azioni: trascrivere, analizzare, estrarre, didascalia, rilevare, segmentare, generare dai media. Parole chiave: API Gemini, trascrizione audio, sottotitoli immagini, OCR, rilevamento oggetti, analisi video, estrazione PDF, conversione da testo a immagine, multimodale, riconoscimento vocale, domande e risposte visive, rilevamento scene, trascrizione YouTube, estrazione tabelle, elaborazione moduli, generazione immagini, Imagen. Utilizzare quando: trascrivere audio/video, analizzare immagini/screenshot, estrarre dati da PDF, elaborare video di YouTube, generare immagini da testo, implementare funzionalità AI multimodali.

26Installazioni·0Tendenza·@samhvw8

Installazione

$npx skills add https://github.com/samhvw8/dot-claude --skill ai-multimodal

Come installare ai-multimodal

Installa rapidamente la skill AI ai-multimodal nel tuo ambiente di sviluppo tramite riga di comando

  1. Apri il terminale: Apri il tuo terminale o strumento da riga di comando (Terminal, iTerm, Windows Terminal, ecc.)
  2. Esegui il comando di installazione: Copia ed esegui questo comando: npx skills add https://github.com/samhvw8/dot-claude --skill ai-multimodal
  3. Verifica l'installazione: Dopo l'installazione, la skill verrà configurata automaticamente nel tuo ambiente AI di coding e sarà pronta all'uso in Claude Code, Cursor o OpenClaw

Fonte: samhvw8/dot-claude.

Process audio, images, videos, documents, and generate images using Google Gemini's multimodal API. Unified interface for all multimedia content understanding and generation.

| Task | Audio | Image | Video | Document | Generation |

| Transcription | ✓ | - | ✓ | - | - | | Summarization | ✓ | ✓ | ✓ | ✓ | - | | Q&A | ✓ | ✓ | ✓ | ✓ | - | | Object Detection | - | ✓ | ✓ | - | - | | Text Extraction | - | ✓ | - | ✓ | - | | Structured Output | ✓ | ✓ | ✓ | ✓ | - | | Creation | TTS | - | - | - | ✓ | | Timestamps | ✓ | - | ✓ | - | - | | Segmentation | - | ✓ | - | - | - |

Fatti (pronti per citazione)

Campi e comandi stabili per citazioni AI/ricerca.

Comando di installazione
npx skills add https://github.com/samhvw8/dot-claude --skill ai-multimodal
Categoria
#Documenti
Verificato
Prima apparizione
2026-02-01
Aggiornato
2026-03-10

Browse more skills from samhvw8/dot-claude

Risposte rapide

Che cos'è ai-multimodal?

Elaborazione AI multimodale tramite API Google Gemini (contesto di token 2M). Funzionalità: audio (trascrizione, massimo 9,5 ore, riepilogo, analisi musicale), immagini (sottotitoli, OCR, rilevamento di oggetti, segmentazione, domande e risposte visive), video (rilevamento di scene, massimo 6 ore, URL di YouTube, analisi temporale), documenti (estrazione PDF, tabelle, moduli, grafici), generazione di immagini (da testo a immagine, modifica). Azioni: trascrivere, analizzare, estrarre, didascalia, rilevare, segmentare, generare dai media. Parole chiave: API Gemini, trascrizione audio, sottotitoli immagini, OCR, rilevamento oggetti, analisi video, estrazione PDF, conversione da testo a immagine, multimodale, riconoscimento vocale, domande e risposte visive, rilevamento scene, trascrizione YouTube, estrazione tabelle, elaborazione moduli, generazione immagini, Imagen. Utilizzare quando: trascrivere audio/video, analizzare immagini/screenshot, estrarre dati da PDF, elaborare video di YouTube, generare immagini da testo, implementare funzionalità AI multimodali. Fonte: samhvw8/dot-claude.

Come installo ai-multimodal?

Apri il tuo terminale o strumento da riga di comando (Terminal, iTerm, Windows Terminal, ecc.) Copia ed esegui questo comando: npx skills add https://github.com/samhvw8/dot-claude --skill ai-multimodal Dopo l'installazione, la skill verrà configurata automaticamente nel tuo ambiente AI di coding e sarà pronta all'uso in Claude Code, Cursor o OpenClaw

Dov'è il repository sorgente?

https://github.com/samhvw8/dot-claude