·ai-multimodal

ai-multimodal

Name: ai-multimodal
Author: samhvw8

✓

Multimodale KI-Verarbeitung über die Google Gemini API (2M-Token-Kontext). Fähigkeiten: Audio (Transkription, max. 9,5 Stunden, Zusammenfassung, Musikanalyse), Bilder (Untertitel, OCR, Objekterkennung, Segmentierung, visuelle Fragen und Antworten), Video (Szenenerkennung, max. 6 Stunden, YouTube-URLs, zeitliche Analyse), Dokumente (PDF-Extraktion, Tabellen, Formulare, Diagramme), Bildgenerierung (Text-zu-Bild, Bearbeitung). Aktionen: Transkribieren, Analysieren, Extrahieren, Untertiteln, Erkennen, Segmentieren, Generieren aus Medien. Schlüsselwörter: Gemini API, Audiotranskription, Bildunterschrift, OCR, Objekterkennung, Videoanalyse, PDF-Extraktion, Text-zu-Bild, multimodal, Spracherkennung, visuelle Fragen und Antworten, Szenenerkennung, YouTube-Transkription, Tabellenextraktion, Formularverarbeitung, Bildgenerierung, Imagen. Verwendung bei: Audio/Video transkribieren, Bilder/Screenshots analysieren, Daten aus PDFs extrahieren, YouTube-Videos verarbeiten, Bilder aus Text generieren, multimodale KI-Funktionen implementieren.

samhvw8·ai·multimodal

11Installationen·0Trend·@samhvw8

Installation

$npx skills add https://github.com/samhvw8/dot-claude --skill ai-multimodal

Details

Kategorie: #Dokumente
Quelle: skills.sh
Erstes Auftreten: 2026-02-01

ai-multimodal

Installation

SKILL.md

Fakten (zitierbereit)

Schnelle Antworten

Was ist ai-multimodal?

Wie installiere ich ai-multimodal?

Wo ist das Quell-Repository?

Details

Verwandte Skills