·ai-multimodal

ai-multimodal

Name: ai-multimodal
Author: jackspace

✓

jackspace/claudeskillz

Elabora e genera contenuti multimediali utilizzando l'API Google Gemini. Le funzionalità includono analisi di file audio (trascrizione con timestamp, riepilogo, comprensione del parlato, analisi di musica/suono fino a 9,5 ore), comprensione di immagini (sottotitoli, rilevamento di oggetti, OCR, domande e risposte visive, segmentazione), elaborazione di video (rilevamento di scene, domande e risposte, analisi temporale, URL di YouTube, fino a 6 ore), estrazione da documenti (tabelle PDF, moduli, grafici, diagrammi, multipagina), generazione di immagini (da testo a immagine, modifica, composizione, perfezionamento). Da utilizzare quando si lavora con file audio/video, si analizzano immagini o screenshot, si elaborano documenti PDF, si estraggono dati strutturati da contenuti multimediali, si creano immagini da istruzioni di testo o si implementano funzionalità AI multimodali. Supporta più modelli (Gemini 2.5/2.0) con finestre di contesto fino a 2 milioni di token.

jackspace·ai·multimodal

18Installazioni·1Tendenza·@jackspace