ai-multimodal
✓Multimodale KI-Verarbeitung über die Google Gemini API (2M-Token-Kontext). Fähigkeiten: Audio (Transkription, max. 9,5 Stunden, Zusammenfassung, Musikanalyse), Bilder (Untertitel, OCR, Objekterkennung, Segmentierung, visuelle Fragen und Antworten), Video (Szenenerkennung, max. 6 Stunden, YouTube-URLs, zeitliche Analyse), Dokumente (PDF-Extraktion, Tabellen, Formulare, Diagramme), Bildgenerierung (Text-zu-Bild, Bearbeitung). Aktionen: Transkribieren, Analysieren, Extrahieren, Untertiteln, Erkennen, Segmentieren, Generieren aus Medien. Schlüsselwörter: Gemini API, Audiotranskription, Bildunterschrift, OCR, Objekterkennung, Videoanalyse, PDF-Extraktion, Text-zu-Bild, multimodal, Spracherkennung, visuelle Fragen und Antworten, Szenenerkennung, YouTube-Transkription, Tabellenextraktion, Formularverarbeitung, Bildgenerierung, Imagen. Verwendung bei: Audio/Video transkribieren, Bilder/Screenshots analysieren, Daten aus PDFs extrahieren, YouTube-Videos verarbeiten, Bilder aus Text generieren, multimodale KI-Funktionen implementieren.
Installation
SKILL.md
Process audio, images, videos, documents, and generate images using Google Gemini's multimodal API. Unified interface for all multimedia content understanding and generation.
| Task | Audio | Image | Video | Document | Generation |
| Transcription | ✓ | - | ✓ | - | - | | Summarization | ✓ | ✓ | ✓ | ✓ | - | | Q&A | ✓ | ✓ | ✓ | ✓ | - | | Object Detection | - | ✓ | ✓ | - | - | | Text Extraction | - | ✓ | - | ✓ | - | | Structured Output | ✓ | ✓ | ✓ | ✓ | - | | Creation | TTS | - | - | - | ✓ | | Timestamps | ✓ | - | ✓ | - | - | | Segmentation | - | ✓ | - | - | - |
Fakten (zitierbereit)
Stabile Felder und Befehle für KI/Such-Zitate.
- Installationsbefehl
npx skills add https://github.com/samhvw8/dot-claude --skill ai-multimodal- Quelle
- samhvw8/dot-claude
- Kategorie
- #Dokumente
- Verifiziert
- ✓
- Erstes Auftreten
- 2026-02-01
- Aktualisiert
- 2026-02-18
Schnelle Antworten
Was ist ai-multimodal?
Multimodale KI-Verarbeitung über die Google Gemini API (2M-Token-Kontext). Fähigkeiten: Audio (Transkription, max. 9,5 Stunden, Zusammenfassung, Musikanalyse), Bilder (Untertitel, OCR, Objekterkennung, Segmentierung, visuelle Fragen und Antworten), Video (Szenenerkennung, max. 6 Stunden, YouTube-URLs, zeitliche Analyse), Dokumente (PDF-Extraktion, Tabellen, Formulare, Diagramme), Bildgenerierung (Text-zu-Bild, Bearbeitung). Aktionen: Transkribieren, Analysieren, Extrahieren, Untertiteln, Erkennen, Segmentieren, Generieren aus Medien. Schlüsselwörter: Gemini API, Audiotranskription, Bildunterschrift, OCR, Objekterkennung, Videoanalyse, PDF-Extraktion, Text-zu-Bild, multimodal, Spracherkennung, visuelle Fragen und Antworten, Szenenerkennung, YouTube-Transkription, Tabellenextraktion, Formularverarbeitung, Bildgenerierung, Imagen. Verwendung bei: Audio/Video transkribieren, Bilder/Screenshots analysieren, Daten aus PDFs extrahieren, YouTube-Videos verarbeiten, Bilder aus Text generieren, multimodale KI-Funktionen implementieren. Quelle: samhvw8/dot-claude.
Wie installiere ich ai-multimodal?
Öffnen Sie Ihr Terminal oder Kommandozeilen-Tool (Terminal, iTerm, Windows Terminal, etc.) Kopieren Sie diesen Befehl und führen Sie ihn aus: npx skills add https://github.com/samhvw8/dot-claude --skill ai-multimodal Nach der Installation wird der Skill automatisch in Ihrer KI-Programmierumgebung konfiguriert und ist bereit zur Verwendung in Claude Code oder Cursor
Wo ist das Quell-Repository?
https://github.com/samhvw8/dot-claude
Details
- Kategorie
- #Dokumente
- Quelle
- skills.sh
- Erstes Auftreten
- 2026-02-01