Что такое ai-multimodal?
Мультимодальная обработка ИИ через Google Gemini API (контекст токенов 2M). Возможности: аудио (транскрипция, максимум 9,5 часов, обобщение, анализ музыки), изображения (субтитры, оптическое распознавание текста, обнаружение объектов, сегментация, визуальные вопросы и ответы), видео (определение сцен, максимум 6 часов, URL-адреса YouTube, временной анализ), документы (извлечение PDF-файлов, таблицы, формы, диаграммы), создание изображений (преобразование текста в изображение, редактирование). Действия: расшифровывать, анализировать, извлекать, подписывать, обнаруживать, сегментировать, генерировать из мультимедиа. Ключевые слова: API Gemini, транскрипция аудио, субтитры к изображениям, распознавание текста, обнаружение объектов, анализ видео, извлечение PDF-файлов, преобразование текста в изображение, мультимодальность, распознавание речи, визуальные вопросы и ответы, обнаружение сцен, транскрипция YouTube, извлечение таблиц, обработка форм, генерация изображений, Imagen. Используйте при: расшифровке аудио/видео, анализе изображений/скриншотов, извлечении данных из PDF-файлов, обработке видео YouTube, создании изображений из текста, реализации мультимодальных функций искусственного интеллекта. Источник: samhvw8/dot-claude.