·ai-multimodal
#

ai-multimodal

قم بمعالجة وإنشاء محتوى الوسائط المتعددة باستخدام Google Gemini API للحصول على إمكانات رؤية أفضل. تشمل القدرات تحليل الملفات الصوتية (النسخ مع الطوابع الزمنية، والتلخيص، وفهم الكلام، وتحليل الموسيقى/الصوت لمدة تصل إلى 9.5 ساعات)، وفهم الصور (تحليل أفضل للصور من نماذج كلود، والتسمية التوضيحية، والتفكير، والكشف عن الكائنات، واستخراج التصميم، والتعرف الضوئي على الحروف، والأسئلة والأجوبة المرئية، والتجزئة، والتعامل مع صور متعددة)، ومعالجة مقاطع الفيديو (الكشف عن المشهد، والأسئلة والأجوبة، والتحليل الزمني، وعناوين URL على YouTube، حتى 6 ساعات)، والاستخراج من المستندات (جداول PDF، والنماذج، والرسوم البيانية، الرسوم البيانية، متعددة الصفحات)، وإنشاء الصور (تحويل النص إلى صورة باستخدام Imagen 4، والتحرير، والتركيب، والتحسين)، وإنشاء مقاطع فيديو (تحويل النص إلى فيديو باستخدام Veo 3، ومقاطع مدتها 8 ثوانٍ بصوت أصلي). يُستخدم عند العمل مع ملفات الصوت/الفيديو، أو تحليل الصور أو لقطات الشاشة (بدلاً من إمكانات الرؤية الافتراضية لـ Claude، يمكنك الرجوع فقط إلى إمكانات رؤية Claude إذا لزم الأمر)، أو معالجة مستندات PDF، أو استخراج البيانات المنظمة من الوسائط، أو إنشاء صور/مقاطع فيديو من المطالبات النصية، أو تنفيذ ميزات الذكاء الاصطناعي متعددة الوسائط. يدعم نماذج Gemini 3/2.5 وImagen 4 وVeo 3 مع نوافذ سياقية تصل إلى 2M من الرموز المميزة.

17التثبيتات·0الرائج·@binhmuc

التثبيت

$npx skills add https://github.com/binhmuc/autobot-review --skill ai-multimodal

كيفية تثبيت ai-multimodal

ثبّت مهارة الذكاء الاصطناعي ai-multimodal بسرعة في بيئة التطوير لديك عبر سطر الأوامر

  1. افتح الطرفية: افتح الطرفية أو أداة سطر الأوامر لديك مثل Terminal أو iTerm أو Windows Terminal
  2. نفّذ أمر التثبيت: انسخ ونفّذ هذا الأمر: npx skills add https://github.com/binhmuc/autobot-review --skill ai-multimodal
  3. تحقق من التثبيت: بعد التثبيت، سيتم إعداد المهارة تلقائيا في بيئة البرمجة بالذكاء الاصطناعي لديك وتصبح جاهزة للاستخدام في Claude Code أو Cursor أو OpenClaw

المصدر: binhmuc/autobot-review.

Process audio, images, videos, documents, and generate images/videos using Google Gemini's multimodal API.

For high-volume usage or when hitting rate limits, configure multiple API keys:

Verify setup: python scripts/checksetup.py Analyze media: python scripts/geminibatchprocess.py --files --task

قم بمعالجة وإنشاء محتوى الوسائط المتعددة باستخدام Google Gemini API للحصول على إمكانات رؤية أفضل. تشمل القدرات تحليل الملفات الصوتية (النسخ مع الطوابع الزمنية، والتلخيص، وفهم الكلام، وتحليل الموسيقى/الصوت لمدة تصل إلى 9.5 ساعات)، وفهم الصور (تحليل أفضل للصور من نماذج كلود، والتسمية التوضيحية، والتفكير، والكشف عن الكائنات، واستخراج التصميم، والتعرف الضوئي على الحروف، والأسئلة والأجوبة المرئية، والتجزئة، والتعامل مع صور متعددة)، ومعالجة مقاطع الفيديو (الكشف عن المشهد، والأسئلة والأجوبة، والتحليل الزمني، وعناوين URL على YouTube، حتى 6 ساعات)، والاستخراج من المستندات (جداول PDF، والنماذج، والرسوم البيانية، الرسوم البيانية، متعددة الصفحات)، وإنشاء الصور (تحويل النص إلى صورة باستخدام Imagen 4، والتحرير، والتركيب، والتحسين)، وإنشاء مقاطع فيديو (تحويل النص إلى فيديو باستخدام Veo 3، ومقاطع مدتها 8 ثوانٍ بصوت أصلي). يُستخدم عند العمل مع ملفات الصوت/الفيديو، أو تحليل الصور أو لقطات الشاشة (بدلاً من إمكانات الرؤية الافتراضية لـ Claude، يمكنك الرجوع فقط إلى إمكانات رؤية Claude إذا لزم الأمر)، أو معالجة مستندات PDF، أو استخراج البيانات المنظمة من الوسائط، أو إنشاء صور/مقاطع فيديو من المطالبات النصية، أو تنفيذ ميزات الذكاء الاصطناعي متعددة الوسائط. يدعم نماذج Gemini 3/2.5 وImagen 4 وVeo 3 مع نوافذ سياقية تصل إلى 2M من الرموز المميزة. المصدر: binhmuc/autobot-review.

حقائق جاهزة للاقتباس

حقول وأوامر مستقرة للاقتباس في أنظمة الذكاء الاصطناعي والبحث.

أمر التثبيت
npx skills add https://github.com/binhmuc/autobot-review --skill ai-multimodal
الفئة
#المستندات
موثق
أول ظهور
2026-02-01
آخر تحديث
2026-03-10

Browse more skills from binhmuc/autobot-review

إجابات سريعة

ما هي ai-multimodal؟

قم بمعالجة وإنشاء محتوى الوسائط المتعددة باستخدام Google Gemini API للحصول على إمكانات رؤية أفضل. تشمل القدرات تحليل الملفات الصوتية (النسخ مع الطوابع الزمنية، والتلخيص، وفهم الكلام، وتحليل الموسيقى/الصوت لمدة تصل إلى 9.5 ساعات)، وفهم الصور (تحليل أفضل للصور من نماذج كلود، والتسمية التوضيحية، والتفكير، والكشف عن الكائنات، واستخراج التصميم، والتعرف الضوئي على الحروف، والأسئلة والأجوبة المرئية، والتجزئة، والتعامل مع صور متعددة)، ومعالجة مقاطع الفيديو (الكشف عن المشهد، والأسئلة والأجوبة، والتحليل الزمني، وعناوين URL على YouTube، حتى 6 ساعات)، والاستخراج من المستندات (جداول PDF، والنماذج، والرسوم البيانية، الرسوم البيانية، متعددة الصفحات)، وإنشاء الصور (تحويل النص إلى صورة باستخدام Imagen 4، والتحرير، والتركيب، والتحسين)، وإنشاء مقاطع فيديو (تحويل النص إلى فيديو باستخدام Veo 3، ومقاطع مدتها 8 ثوانٍ بصوت أصلي). يُستخدم عند العمل مع ملفات الصوت/الفيديو، أو تحليل الصور أو لقطات الشاشة (بدلاً من إمكانات الرؤية الافتراضية لـ Claude، يمكنك الرجوع فقط إلى إمكانات رؤية Claude إذا لزم الأمر)، أو معالجة مستندات PDF، أو استخراج البيانات المنظمة من الوسائط، أو إنشاء صور/مقاطع فيديو من المطالبات النصية، أو تنفيذ ميزات الذكاء الاصطناعي متعددة الوسائط. يدعم نماذج Gemini 3/2.5 وImagen 4 وVeo 3 مع نوافذ سياقية تصل إلى 2M من الرموز المميزة. المصدر: binhmuc/autobot-review.

كيف أثبّت ai-multimodal؟

افتح الطرفية أو أداة سطر الأوامر لديك مثل Terminal أو iTerm أو Windows Terminal انسخ ونفّذ هذا الأمر: npx skills add https://github.com/binhmuc/autobot-review --skill ai-multimodal بعد التثبيت، سيتم إعداد المهارة تلقائيا في بيئة البرمجة بالذكاء الاصطناعي لديك وتصبح جاهزة للاستخدام في Claude Code أو Cursor أو OpenClaw

أين مستودع المصدر؟

https://github.com/binhmuc/autobot-review

التفاصيل

الفئة
#المستندات
المصدر
skills.sh
أول ظهور
2026-02-01