ai-multimodal
✓Google Gemini API를 통한 다중 모드 AI 처리(2M 토큰 컨텍스트) 기능: 오디오(녹화, 최대 9.5시간, 요약, 음악 분석), 이미지(캡션, OCR, 개체 감지, 분할, 시각적 Q&A), 비디오(장면 감지, 최대 6시간, YouTube URL, 시간 분석), 문서(PDF 추출, 표, 양식, 차트), 이미지 생성(텍스트를 이미지로, 편집). 작업: 미디어에서 복사, 분석, 추출, 캡션, 감지, 분류, 생성. 키워드: Gemini API, 오디오 전사, 이미지 캡션 작성, OCR, 객체 감지, 비디오 분석, PDF 추출, 텍스트-이미지, 멀티모달, 음성 인식, 시각적 Q&A, 장면 감지, YouTube 전사, 테이블 추출, 양식 처리, 이미지 생성, Imagen. 사용 시기: 오디오/비디오 복사, 이미지/스크린샷 분석, PDF에서 데이터 추출, YouTube 비디오 처리, 텍스트에서 이미지 생성, 멀티모달 AI 기능 구현.
SKILL.md
Process audio, images, videos, documents, and generate images using Google Gemini's multimodal API. Unified interface for all multimedia content understanding and generation.
| Task | Audio | Image | Video | Document | Generation |
| Transcription | ✓ | - | ✓ | - | - | | Summarization | ✓ | ✓ | ✓ | ✓ | - | | Q&A | ✓ | ✓ | ✓ | ✓ | - | | Object Detection | - | ✓ | ✓ | - | - | | Text Extraction | - | ✓ | - | ✓ | - | | Structured Output | ✓ | ✓ | ✓ | ✓ | - | | Creation | TTS | - | - | - | ✓ | | Timestamps | ✓ | - | ✓ | - | - | | Segmentation | - | ✓ | - | - | - |
인용 가능한 정보
AI/검색 인용용 안정적인 필드와 명령어.
- 설치 명령어
npx skills add https://github.com/samhvw8/dot-claude --skill ai-multimodal- 카테고리
- #문서
- 인증됨
- ✓
- 최초 등록
- 2026-02-01
- 업데이트
- 2026-02-18
빠른 답변
ai-multimodal이란?
Google Gemini API를 통한 다중 모드 AI 처리(2M 토큰 컨텍스트) 기능: 오디오(녹화, 최대 9.5시간, 요약, 음악 분석), 이미지(캡션, OCR, 개체 감지, 분할, 시각적 Q&A), 비디오(장면 감지, 최대 6시간, YouTube URL, 시간 분석), 문서(PDF 추출, 표, 양식, 차트), 이미지 생성(텍스트를 이미지로, 편집). 작업: 미디어에서 복사, 분석, 추출, 캡션, 감지, 분류, 생성. 키워드: Gemini API, 오디오 전사, 이미지 캡션 작성, OCR, 객체 감지, 비디오 분석, PDF 추출, 텍스트-이미지, 멀티모달, 음성 인식, 시각적 Q&A, 장면 감지, YouTube 전사, 테이블 추출, 양식 처리, 이미지 생성, Imagen. 사용 시기: 오디오/비디오 복사, 이미지/스크린샷 분석, PDF에서 데이터 추출, YouTube 비디오 처리, 텍스트에서 이미지 생성, 멀티모달 AI 기능 구현. 출처: samhvw8/dot-claude.
ai-multimodal 설치 방법은?
터미널 또는 명령줄 도구(Terminal, iTerm, Windows Terminal 등)를 엽니다 이 명령어를 복사하여 실행합니다: npx skills add https://github.com/samhvw8/dot-claude --skill ai-multimodal 설치 후 스킬은 자동으로 AI 코딩 환경에 설정되어 Claude Code나 Cursor에서 사용할 수 있습니다
소스 저장소는 어디인가요?
https://github.com/samhvw8/dot-claude
상세
- 카테고리
- #문서
- 출처
- skills.sh
- 최초 등록
- 2026-02-01