Обрабатывайте и генерируйте мультимедийный контент с помощью API Google Gemini. Возможности включают анализ аудиофайлов (транскрипция с временными метками, обобщение, понимание речи, анализ музыки/звука до 9,5 часов), понимание изображений (субтитры, обнаружение объектов, оптическое распознавание текста, визуальные вопросы и ответы, сегментация), обработку видео (определение сцен, вопросы и ответы, временной анализ, URL-адреса YouTube, до 6 часов), извлечение из документов (таблицы PDF, формы, диаграммы, диаграммы, многостраничные), создание изображений (преобразование текста в изображение, редактирование, состав, уточнение). Используйте при работе с аудио/видео файлами, анализе изображений или снимков экрана, обработке PDF-документов, извлечении структурированных данных из мультимедиа, создании изображений из текстовых подсказок или реализации мультимодальных функций искусственного интеллекта. Поддерживает несколько моделей (Gemini 2.5/2.0) с контекстными окнами до 2 миллионов токенов.
Быстро установите AI-навык ai-multimodal в вашу среду разработки через командную строку
Откройте терминал: Откройте терминал или инструмент командной строки (Terminal, iTerm, Windows Terminal и т.д.)
Выполните команду установки: Скопируйте и выполните эту команду: npx skills add https://github.com/mrgoonie/claudekit-skills --skill ai-multimodal
Проверьте установку: После установки навык будет автоматически настроен в вашей AI-среде разработки и готов к использованию в Claude Code, Cursor или OpenClaw
Process audio, images, videos, documents, and generate images using Google Gemini's multimodal API. Unified interface for all multimedia content understanding and generation.
Обрабатывайте и генерируйте мультимедийный контент с помощью API Google Gemini. Возможности включают анализ аудиофайлов (транскрипция с временными метками, обобщение, понимание речи, анализ музыки/звука до 9,5 часов), понимание изображений (субтитры, обнаружение объектов, оптическое распознавание текста, визуальные вопросы и ответы, сегментация), обработку видео (определение сцен, вопросы и ответы, временной анализ, URL-адреса YouTube, до 6 часов), извлечение из документов (таблицы PDF, формы, диаграммы, диаграммы, многостраничные), создание изображений (преобразование текста в изображение, редактирование, состав, уточнение). Используйте при работе с аудио/видео файлами, анализе изображений или снимков экрана, обработке PDF-документов, извлечении структурированных данных из мультимедиа, создании изображений из текстовых подсказок или реализации мультимодальных функций искусственного интеллекта. Поддерживает несколько моделей (Gemini 2.5/2.0) с контекстными окнами до 2 миллионов токенов. Источник: mrgoonie/claudekit-skills.
Как установить ai-multimodal?
Откройте терминал или инструмент командной строки (Terminal, iTerm, Windows Terminal и т.д.) Скопируйте и выполните эту команду: npx skills add https://github.com/mrgoonie/claudekit-skills --skill ai-multimodal После установки навык будет автоматически настроен в вашей AI-среде разработки и готов к использованию в Claude Code, Cursor или OpenClaw