·ai-multimodal
#

ai-multimodal

binhmuc/autobot-review

Verarbeiten und generieren Sie Multimedia-Inhalte mithilfe der Google Gemini-API für bessere Sehfunktionen. Zu den Funktionen gehören die Analyse von Audiodateien (Transkription mit Zeitstempeln, Zusammenfassung, Sprachverständnis, Musik-/Tonanalyse bis zu 9,5 Stunden), das Verstehen von Bildern (bessere Bildanalyse als Claude-Modelle, Untertitel, Argumentation, Objekterkennung, Designextraktion, OCR, visuelle Fragen und Antworten, Segmentierung, Umgang mit mehreren Bildern), die Verarbeitung von Videos (Szenenerkennung, Fragen und Antworten, zeitliche Analyse, YouTube-URLs, bis zu 6 Stunden), das Extrahieren aus Dokumenten (PDF-Tabellen, Formulare, Diagramme, Diagramme, mehrseitig), Bilder generieren (Text-zu-Bild mit Imagen 4, Bearbeitung, Komposition, Verfeinerung), Videos generieren (Text-zu-Video mit Veo 3, 8-Sekunden-Clips mit nativem Audio). Verwenden Sie es, wenn Sie mit Audio-/Videodateien arbeiten, Bilder oder Screenshots analysieren (anstelle der Standard-Vision-Funktionen von Claude, nur bei Bedarf auf Claudes Vision-Funktionen zurückgreifen), PDF-Dokumente verarbeiten, strukturierte Daten aus Medien extrahieren, Bilder/Videos aus Textaufforderungen erstellen oder multimodale KI-Funktionen implementieren. Unterstützt die Modelle Gemini 3/2.5, Imagen 4 und Veo 3 mit Kontextfenstern für bis zu 2 Millionen Token.

16Installationen·1Trend·@binhmuc

Installation

$npx skills add https://github.com/binhmuc/autobot-review --skill ai-multimodal

SKILL.md

Process audio, images, videos, documents, and generate images/videos using Google Gemini's multimodal API.

For high-volume usage or when hitting rate limits, configure multiple API keys:

Verify setup: python scripts/checksetup.py Analyze media: python scripts/geminibatchprocess.py --files --task

Verarbeiten und generieren Sie Multimedia-Inhalte mithilfe der Google Gemini-API für bessere Sehfunktionen. Zu den Funktionen gehören die Analyse von Audiodateien (Transkription mit Zeitstempeln, Zusammenfassung, Sprachverständnis, Musik-/Tonanalyse bis zu 9,5 Stunden), das Verstehen von Bildern (bessere Bildanalyse als Claude-Modelle, Untertitel, Argumentation, Objekterkennung, Designextraktion, OCR, visuelle Fragen und Antworten, Segmentierung, Umgang mit mehreren Bildern), die Verarbeitung von Videos (Szenenerkennung, Fragen und Antworten, zeitliche Analyse, YouTube-URLs, bis zu 6 Stunden), das Extrahieren aus Dokumenten (PDF-Tabellen, Formulare, Diagramme, Diagramme, mehrseitig), Bilder generieren (Text-zu-Bild mit Imagen 4, Bearbeitung, Komposition, Verfeinerung), Videos generieren (Text-zu-Video mit Veo 3, 8-Sekunden-Clips mit nativem Audio). Verwenden Sie es, wenn Sie mit Audio-/Videodateien arbeiten, Bilder oder Screenshots analysieren (anstelle der Standard-Vision-Funktionen von Claude, nur bei Bedarf auf Claudes Vision-Funktionen zurückgreifen), PDF-Dokumente verarbeiten, strukturierte Daten aus Medien extrahieren, Bilder/Videos aus Textaufforderungen erstellen oder multimodale KI-Funktionen implementieren. Unterstützt die Modelle Gemini 3/2.5, Imagen 4 und Veo 3 mit Kontextfenstern für bis zu 2 Millionen Token. Quelle: binhmuc/autobot-review.

Original anzeigen

Fakten (zitierbereit)

Stabile Felder und Befehle für KI/Such-Zitate.

Installationsbefehl
npx skills add https://github.com/binhmuc/autobot-review --skill ai-multimodal
Kategorie
#Dokumente
Verifiziert
Erstes Auftreten
2026-02-01
Aktualisiert
2026-02-18

Schnelle Antworten

Was ist ai-multimodal?

Verarbeiten und generieren Sie Multimedia-Inhalte mithilfe der Google Gemini-API für bessere Sehfunktionen. Zu den Funktionen gehören die Analyse von Audiodateien (Transkription mit Zeitstempeln, Zusammenfassung, Sprachverständnis, Musik-/Tonanalyse bis zu 9,5 Stunden), das Verstehen von Bildern (bessere Bildanalyse als Claude-Modelle, Untertitel, Argumentation, Objekterkennung, Designextraktion, OCR, visuelle Fragen und Antworten, Segmentierung, Umgang mit mehreren Bildern), die Verarbeitung von Videos (Szenenerkennung, Fragen und Antworten, zeitliche Analyse, YouTube-URLs, bis zu 6 Stunden), das Extrahieren aus Dokumenten (PDF-Tabellen, Formulare, Diagramme, Diagramme, mehrseitig), Bilder generieren (Text-zu-Bild mit Imagen 4, Bearbeitung, Komposition, Verfeinerung), Videos generieren (Text-zu-Video mit Veo 3, 8-Sekunden-Clips mit nativem Audio). Verwenden Sie es, wenn Sie mit Audio-/Videodateien arbeiten, Bilder oder Screenshots analysieren (anstelle der Standard-Vision-Funktionen von Claude, nur bei Bedarf auf Claudes Vision-Funktionen zurückgreifen), PDF-Dokumente verarbeiten, strukturierte Daten aus Medien extrahieren, Bilder/Videos aus Textaufforderungen erstellen oder multimodale KI-Funktionen implementieren. Unterstützt die Modelle Gemini 3/2.5, Imagen 4 und Veo 3 mit Kontextfenstern für bis zu 2 Millionen Token. Quelle: binhmuc/autobot-review.

Wie installiere ich ai-multimodal?

Öffnen Sie Ihr Terminal oder Kommandozeilen-Tool (Terminal, iTerm, Windows Terminal, etc.) Kopieren Sie diesen Befehl und führen Sie ihn aus: npx skills add https://github.com/binhmuc/autobot-review --skill ai-multimodal Nach der Installation wird der Skill automatisch in Ihrer KI-Programmierumgebung konfiguriert und ist bereit zur Verwendung in Claude Code oder Cursor

Wo ist das Quell-Repository?

https://github.com/binhmuc/autobot-review