·ai-multimodal
#

ai-multimodal

Мультимодальная обработка ИИ через Google Gemini API (контекст токенов 2M). Возможности: аудио (транскрипция, максимум 9,5 часов, обобщение, анализ музыки), изображения (субтитры, оптическое распознавание текста, обнаружение объектов, сегментация, визуальные вопросы и ответы), видео (определение сцен, максимум 6 часов, URL-адреса YouTube, временной анализ), документы (извлечение PDF-файлов, таблицы, формы, диаграммы), создание изображений (преобразование текста в изображение, редактирование). Действия: расшифровывать, анализировать, извлекать, подписывать, обнаруживать, сегментировать, генерировать из мультимедиа. Ключевые слова: API Gemini, транскрипция аудио, субтитры к изображениям, распознавание текста, обнаружение объектов, анализ видео, извлечение PDF-файлов, преобразование текста в изображение, мультимодальность, распознавание речи, визуальные вопросы и ответы, обнаружение сцен, транскрипция YouTube, извлечение таблиц, обработка форм, генерация изображений, Imagen. Используйте при: расшифровке аудио/видео, анализе изображений/скриншотов, извлечении данных из PDF-файлов, обработке видео YouTube, создании изображений из текста, реализации мультимодальных функций искусственного интеллекта.

27Установки·1Тренд·@samhvw8

Установка

$npx skills add https://github.com/samhvw8/dot-claude --skill ai-multimodal

Как установить ai-multimodal

Быстро установите AI-навык ai-multimodal в вашу среду разработки через командную строку

  1. Откройте терминал: Откройте терминал или инструмент командной строки (Terminal, iTerm, Windows Terminal и т.д.)
  2. Выполните команду установки: Скопируйте и выполните эту команду: npx skills add https://github.com/samhvw8/dot-claude --skill ai-multimodal
  3. Проверьте установку: После установки навык будет автоматически настроен в вашей AI-среде разработки и готов к использованию в Claude Code, Cursor или OpenClaw

Источник: samhvw8/dot-claude.

Process audio, images, videos, documents, and generate images using Google Gemini's multimodal API. Unified interface for all multimedia content understanding and generation.

| Task | Audio | Image | Video | Document | Generation |

| Transcription | ✓ | - | ✓ | - | - | | Summarization | ✓ | ✓ | ✓ | ✓ | - | | Q&A | ✓ | ✓ | ✓ | ✓ | - | | Object Detection | - | ✓ | ✓ | - | - | | Text Extraction | - | ✓ | - | ✓ | - | | Structured Output | ✓ | ✓ | ✓ | ✓ | - | | Creation | TTS | - | - | - | ✓ | | Timestamps | ✓ | - | ✓ | - | - | | Segmentation | - | ✓ | - | - | - |

Факты (для цитирования)

Стабильные поля и команды для ссылок в AI/поиске.

Команда установки
npx skills add https://github.com/samhvw8/dot-claude --skill ai-multimodal
Источник
samhvw8/dot-claude
Категория
#Документы
Проверено
Впервые замечено
2026-02-01
Обновлено
2026-03-11

Browse more skills from samhvw8/dot-claude

Короткие ответы

Что такое ai-multimodal?

Мультимодальная обработка ИИ через Google Gemini API (контекст токенов 2M). Возможности: аудио (транскрипция, максимум 9,5 часов, обобщение, анализ музыки), изображения (субтитры, оптическое распознавание текста, обнаружение объектов, сегментация, визуальные вопросы и ответы), видео (определение сцен, максимум 6 часов, URL-адреса YouTube, временной анализ), документы (извлечение PDF-файлов, таблицы, формы, диаграммы), создание изображений (преобразование текста в изображение, редактирование). Действия: расшифровывать, анализировать, извлекать, подписывать, обнаруживать, сегментировать, генерировать из мультимедиа. Ключевые слова: API Gemini, транскрипция аудио, субтитры к изображениям, распознавание текста, обнаружение объектов, анализ видео, извлечение PDF-файлов, преобразование текста в изображение, мультимодальность, распознавание речи, визуальные вопросы и ответы, обнаружение сцен, транскрипция YouTube, извлечение таблиц, обработка форм, генерация изображений, Imagen. Используйте при: расшифровке аудио/видео, анализе изображений/скриншотов, извлечении данных из PDF-файлов, обработке видео YouTube, создании изображений из текста, реализации мультимодальных функций искусственного интеллекта. Источник: samhvw8/dot-claude.

Как установить ai-multimodal?

Откройте терминал или инструмент командной строки (Terminal, iTerm, Windows Terminal и т.д.) Скопируйте и выполните эту команду: npx skills add https://github.com/samhvw8/dot-claude --skill ai-multimodal После установки навык будет автоматически настроен в вашей AI-среде разработки и готов к использованию в Claude Code, Cursor или OpenClaw

Где находится исходный репозиторий?

https://github.com/samhvw8/dot-claude

Детали

Категория
#Документы
Источник
skills.sh
Впервые замечено
2026-02-01