Comprehensive guide for processing multimodal inputs with Gemini 3 Pro, including image understanding, video analysis, audio processing, and PDF document extraction. This skill focuses on INPUT processing (analyzing media) - see gemini-3-image-generation for OUTPUT (generating images).
Gemini 3 Pro provides native multimodal capabilities for understanding and analyzing various media types. This skill covers all input processing operations with granular control over quality, performance, and token consumption.
| Resolution | Tokens per Image | Best For |
Обрабатывайте мультимодальные входные данные (изображения, видео, аудио, PDF-файлы) с помощью Gemini 3 Pro. Охватывает понимание изображений, анализ видео, обработку звука, извлечение документов, управление разрешением мультимедиа, распознавание текста и оптимизацию токенов. Используйте при анализе изображений, обработке видео, расшифровке аудио, извлечении содержимого PDF или работе с мультимодальными данными. Источник: adaptationio/skrillz.