·ai-multimodal
#

ai-multimodal

jackspace/claudeskillz

Verarbeiten und generieren Sie Multimedia-Inhalte mit der Google Gemini API. Zu den Funktionen gehören die Analyse von Audiodateien (Transkription mit Zeitstempeln, Zusammenfassung, Sprachverständnis, Musik-/Tonanalyse bis zu 9,5 Stunden), das Verstehen von Bildern (Beschriftung, Objekterkennung, OCR, visuelle Fragen und Antworten, Segmentierung), die Verarbeitung von Videos (Szenenerkennung, Fragen und Antworten, zeitliche Analyse, YouTube-URLs, bis zu 6 Stunden), das Extrahieren aus Dokumenten (PDF-Tabellen, Formulare, Diagramme, Diagramme, mehrseitig) und das Generieren von Bildern (Text-zu-Bild, Bearbeitung, Komposition, Verfeinerung). Verwenden Sie es, wenn Sie mit Audio-/Videodateien arbeiten, Bilder oder Screenshots analysieren, PDF-Dokumente verarbeiten, strukturierte Daten aus Medien extrahieren, Bilder aus Textaufforderungen erstellen oder multimodale KI-Funktionen implementieren. Unterstützt mehrere Modelle (Gemini 2.5/2.0) mit Kontextfenstern für bis zu 2 Millionen Token.

12Installationen·0Trend·@jackspace

Installation

$npx skills add https://github.com/jackspace/claudeskillz --skill ai-multimodal

SKILL.md

Process audio, images, videos, documents, and generate images using Google Gemini's multimodal API. Unified interface for all multimedia content understanding and generation.

| Task | Audio | Image | Video | Document | Generation |

| Transcription | ✓ | - | ✓ | - | - | | Summarization | ✓ | ✓ | ✓ | ✓ | - | | Q&A | ✓ | ✓ | ✓ | ✓ | - | | Object Detection | - | ✓ | ✓ | - | - | | Text Extraction | - | ✓ | - | ✓ | - | | Structured Output | ✓ | ✓ | ✓ | ✓ | - | | Creation | TTS | - | - | - | ✓ | | Timestamps | ✓ | - | ✓ | - | - | | Segmentation | - | ✓ | - | - | - |

Original anzeigen

Fakten (zitierbereit)

Stabile Felder und Befehle für KI/Such-Zitate.

Installationsbefehl
npx skills add https://github.com/jackspace/claudeskillz --skill ai-multimodal
Kategorie
#Dokumente
Verifiziert
Erstes Auftreten
2026-02-17
Aktualisiert
2026-02-18

Schnelle Antworten

Was ist ai-multimodal?

Verarbeiten und generieren Sie Multimedia-Inhalte mit der Google Gemini API. Zu den Funktionen gehören die Analyse von Audiodateien (Transkription mit Zeitstempeln, Zusammenfassung, Sprachverständnis, Musik-/Tonanalyse bis zu 9,5 Stunden), das Verstehen von Bildern (Beschriftung, Objekterkennung, OCR, visuelle Fragen und Antworten, Segmentierung), die Verarbeitung von Videos (Szenenerkennung, Fragen und Antworten, zeitliche Analyse, YouTube-URLs, bis zu 6 Stunden), das Extrahieren aus Dokumenten (PDF-Tabellen, Formulare, Diagramme, Diagramme, mehrseitig) und das Generieren von Bildern (Text-zu-Bild, Bearbeitung, Komposition, Verfeinerung). Verwenden Sie es, wenn Sie mit Audio-/Videodateien arbeiten, Bilder oder Screenshots analysieren, PDF-Dokumente verarbeiten, strukturierte Daten aus Medien extrahieren, Bilder aus Textaufforderungen erstellen oder multimodale KI-Funktionen implementieren. Unterstützt mehrere Modelle (Gemini 2.5/2.0) mit Kontextfenstern für bis zu 2 Millionen Token. Quelle: jackspace/claudeskillz.

Wie installiere ich ai-multimodal?

Öffnen Sie Ihr Terminal oder Kommandozeilen-Tool (Terminal, iTerm, Windows Terminal, etc.) Kopieren Sie diesen Befehl und führen Sie ihn aus: npx skills add https://github.com/jackspace/claudeskillz --skill ai-multimodal Nach der Installation wird der Skill automatisch in Ihrer KI-Programmierumgebung konfiguriert und ist bereit zur Verwendung in Claude Code oder Cursor

Wo ist das Quell-Repository?

https://github.com/jackspace/claudeskillz