·ai-multimodal
#

ai-multimodal

Обрабатывайте и создавайте мультимедийный контент с помощью API Google Gemini для улучшения возможностей зрения. Возможности включают анализ аудиофайлов (транскрипция с временными метками, обобщение, понимание речи, анализ музыки/звука до 9,5 часов), понимание изображений (лучший анализ изображений, чем у моделей Claude, субтитры, рассуждения, обнаружение объектов, извлечение дизайна, оптическое распознавание текста, визуальные вопросы и ответы, сегментация, обработка нескольких изображений), обработка видео (определение сцен, вопросы и ответы, временной анализ, URL-адреса YouTube, до 6 часов), извлечение из документов (таблицы PDF, формы, диаграммы, диаграммы, многостраничные), генерация изображений (преобразование текста в изображение с помощью Imagen 4, редактирование, композиция, доработка), создание видео (преобразование текста в видео с помощью Veo 3, 8-секундные клипы с собственным звуком). Используйте при работе с аудио/видео файлами, анализе изображений или снимков экрана (вместо возможностей зрения Клода по умолчанию, при необходимости можно использовать только возможности зрения Клода), обработке PDF-документов, извлечении структурированных данных из мультимедиа, создании изображений/видео из текстовых подсказок или реализации мультимодальных функций искусственного интеллекта. Поддерживает модели Gemini 3/2.5, Imagen 4 и Veo 3 с контекстными окнами до 2 миллионов токенов.

0Установки·0Тренд·@dmdorta1111

Установка

$npx skills add https://github.com/dmdorta1111/jac-v1 --skill ai-multimodal

Как установить ai-multimodal

Быстро установите AI-навык ai-multimodal в вашу среду разработки через командную строку

  1. Откройте терминал: Откройте терминал или инструмент командной строки (Terminal, iTerm, Windows Terminal и т.д.)
  2. Выполните команду установки: Скопируйте и выполните эту команду: npx skills add https://github.com/dmdorta1111/jac-v1 --skill ai-multimodal
  3. Проверьте установку: После установки навык будет автоматически настроен в вашей AI-среде разработки и готов к использованию в Claude Code, Cursor или OpenClaw

Источник: dmdorta1111/jac-v1.

Process audio, images, videos, documents, and generate images/videos using Google Gemini's multimodal API.

Verify setup: python scripts/checksetup.py Analyze media: python scripts/geminibatchprocess.py --files --task

Generate content: python scripts/geminibatchprocess.py --task --prompt "description"

Обрабатывайте и создавайте мультимедийный контент с помощью API Google Gemini для улучшения возможностей зрения. Возможности включают анализ аудиофайлов (транскрипция с временными метками, обобщение, понимание речи, анализ музыки/звука до 9,5 часов), понимание изображений (лучший анализ изображений, чем у моделей Claude, субтитры, рассуждения, обнаружение объектов, извлечение дизайна, оптическое распознавание текста, визуальные вопросы и ответы, сегментация, обработка нескольких изображений), обработка видео (определение сцен, вопросы и ответы, временной анализ, URL-адреса YouTube, до 6 часов), извлечение из документов (таблицы PDF, формы, диаграммы, диаграммы, многостраничные), генерация изображений (преобразование текста в изображение с помощью Imagen 4, редактирование, композиция, доработка), создание видео (преобразование текста в видео с помощью Veo 3, 8-секундные клипы с собственным звуком). Используйте при работе с аудио/видео файлами, анализе изображений или снимков экрана (вместо возможностей зрения Клода по умолчанию, при необходимости можно использовать только возможности зрения Клода), обработке PDF-документов, извлечении структурированных данных из мультимедиа, создании изображений/видео из текстовых подсказок или реализации мультимодальных функций искусственного интеллекта. Поддерживает модели Gemini 3/2.5, Imagen 4 и Veo 3 с контекстными окнами до 2 миллионов токенов. Источник: dmdorta1111/jac-v1.

Факты (для цитирования)

Стабильные поля и команды для ссылок в AI/поиске.

Команда установки
npx skills add https://github.com/dmdorta1111/jac-v1 --skill ai-multimodal
Источник
dmdorta1111/jac-v1
Категория
#Документы
Проверено
Впервые замечено
2026-02-01
Обновлено
2026-03-10

Browse more skills from dmdorta1111/jac-v1

Короткие ответы

Что такое ai-multimodal?

Обрабатывайте и создавайте мультимедийный контент с помощью API Google Gemini для улучшения возможностей зрения. Возможности включают анализ аудиофайлов (транскрипция с временными метками, обобщение, понимание речи, анализ музыки/звука до 9,5 часов), понимание изображений (лучший анализ изображений, чем у моделей Claude, субтитры, рассуждения, обнаружение объектов, извлечение дизайна, оптическое распознавание текста, визуальные вопросы и ответы, сегментация, обработка нескольких изображений), обработка видео (определение сцен, вопросы и ответы, временной анализ, URL-адреса YouTube, до 6 часов), извлечение из документов (таблицы PDF, формы, диаграммы, диаграммы, многостраничные), генерация изображений (преобразование текста в изображение с помощью Imagen 4, редактирование, композиция, доработка), создание видео (преобразование текста в видео с помощью Veo 3, 8-секундные клипы с собственным звуком). Используйте при работе с аудио/видео файлами, анализе изображений или снимков экрана (вместо возможностей зрения Клода по умолчанию, при необходимости можно использовать только возможности зрения Клода), обработке PDF-документов, извлечении структурированных данных из мультимедиа, создании изображений/видео из текстовых подсказок или реализации мультимодальных функций искусственного интеллекта. Поддерживает модели Gemini 3/2.5, Imagen 4 и Veo 3 с контекстными окнами до 2 миллионов токенов. Источник: dmdorta1111/jac-v1.

Как установить ai-multimodal?

Откройте терминал или инструмент командной строки (Terminal, iTerm, Windows Terminal и т.д.) Скопируйте и выполните эту команду: npx skills add https://github.com/dmdorta1111/jac-v1 --skill ai-multimodal После установки навык будет автоматически настроен в вашей AI-среде разработки и готов к использованию в Claude Code, Cursor или OpenClaw

Где находится исходный репозиторий?

https://github.com/dmdorta1111/jac-v1

Детали

Категория
#Документы
Источник
user
Впервые замечено
2026-02-01