·ai-multimodal

ai-multimodal

Name: ai-multimodal
Author: mrgoonie

✓

Verarbeiten und generieren Sie Multimedia-Inhalte mit der Google Gemini API. Zu den Funktionen gehören die Analyse von Audiodateien (Transkription mit Zeitstempeln, Zusammenfassung, Sprachverständnis, Musik-/Tonanalyse bis zu 9,5 Stunden), das Verstehen von Bildern (Beschriftung, Objekterkennung, OCR, visuelle Fragen und Antworten, Segmentierung), die Verarbeitung von Videos (Szenenerkennung, Fragen und Antworten, zeitliche Analyse, YouTube-URLs, bis zu 6 Stunden), das Extrahieren aus Dokumenten (PDF-Tabellen, Formulare, Diagramme, Diagramme, mehrseitig) und das Generieren von Bildern (Text-zu-Bild, Bearbeitung, Komposition, Verfeinerung). Verwenden Sie es, wenn Sie mit Audio-/Videodateien arbeiten, Bilder oder Screenshots analysieren, PDF-Dokumente verarbeiten, strukturierte Daten aus Medien extrahieren, Bilder aus Textaufforderungen erstellen oder multimodale KI-Funktionen implementieren. Unterstützt mehrere Modelle (Gemini 2.5/2.0) mit Kontextfenstern für bis zu 2 Millionen Token.

mrgoonie·ai·multimodal

124Installationen·5Trend·@mrgoonie

Installation

$npx skills add https://github.com/mrgoonie/claudekit-skills --skill ai-multimodal

Details

Kategorie: #Dokumente
Quelle: skills.sh
Erstes Auftreten: 2026-02-01

ai-multimodal

Installation

SKILL.md

Fakten (zitierbereit)

Schnelle Antworten

Was ist ai-multimodal?

Wie installiere ich ai-multimodal?

Wo ist das Quell-Repository?

Details

Verwandte Skills