Comprehensive guide for processing multimodal inputs with Gemini 3 Pro, including image understanding, video analysis, audio processing, and PDF document extraction. This skill focuses on INPUT processing (analyzing media) - see gemini-3-image-generation for OUTPUT (generating images).
Gemini 3 Pro provides native multimodal capabilities for understanding and analyzing various media types. This skill covers all input processing operations with granular control over quality, performance, and token consumption.
| Resolution | Tokens per Image | Best For |
Elabora input multimodali (immagini, video, audio, PDF) con Gemini 3 Pro. Copre la comprensione delle immagini, l'analisi video, l'elaborazione audio, l'estrazione dei documenti, il controllo della risoluzione multimediale, l'OCR e l'ottimizzazione dei token. Da utilizzare durante l'analisi di immagini, l'elaborazione di video, la trascrizione di audio, l'estrazione di contenuti PDF o l'utilizzo di dati multimodali. Fonte: adaptationio/skrillz.