·ai-multimodal
#

ai-multimodal

معالجة الذكاء الاصطناعي متعدد الوسائط عبر Google Gemini API (سياق 2M من الرموز المميزة). القدرات: الصوت (النسخ، 9.5 ساعة كحد أقصى، التلخيص، تحليل الموسيقى)، الصور (التسميات التوضيحية، التعرف الضوئي على الحروف، اكتشاف الكائنات، التجزئة، الأسئلة والأجوبة المرئية)، الفيديو (اكتشاف المشهد، 6 ساعات كحد أقصى، عناوين URL على YouTube، التحليل الزمني)، المستندات (استخراج PDF، الجداول، النماذج، الرسوم البيانية)، إنشاء الصور (تحويل النص إلى صورة، التحرير). الإجراءات: النسخ والتحليل والاستخراج والتسمية التوضيحية والكشف والتقسيم والتوليد من الوسائط. الكلمات الرئيسية: Gemini API، النسخ الصوتي، التعليق على الصور، التعرف الضوئي على الحروف، اكتشاف الكائنات، تحليل الفيديو، استخراج PDF، تحويل النص إلى صورة، الوسائط المتعددة، التعرف على الكلام، الأسئلة والأجوبة المرئية، اكتشاف المشهد، نسخ YouTube، استخراج الجدول، معالجة النماذج، إنشاء الصور، Imagen. يُستخدم عندما: نسخ الصوت/الفيديو، وتحليل الصور/لقطات الشاشة، واستخراج البيانات من ملفات PDF، ومعالجة مقاطع فيديو YouTube، وإنشاء صور من النص، وتنفيذ ميزات الذكاء الاصطناعي متعددة الوسائط.

26التثبيتات·0الرائج·@samhvw8

التثبيت

$npx skills add https://github.com/samhvw8/dot-claude --skill ai-multimodal

كيفية تثبيت ai-multimodal

ثبّت مهارة الذكاء الاصطناعي ai-multimodal بسرعة في بيئة التطوير لديك عبر سطر الأوامر

  1. افتح الطرفية: افتح الطرفية أو أداة سطر الأوامر لديك مثل Terminal أو iTerm أو Windows Terminal
  2. نفّذ أمر التثبيت: انسخ ونفّذ هذا الأمر: npx skills add https://github.com/samhvw8/dot-claude --skill ai-multimodal
  3. تحقق من التثبيت: بعد التثبيت، سيتم إعداد المهارة تلقائيا في بيئة البرمجة بالذكاء الاصطناعي لديك وتصبح جاهزة للاستخدام في Claude Code أو Cursor أو OpenClaw

المصدر: samhvw8/dot-claude.

Process audio, images, videos, documents, and generate images using Google Gemini's multimodal API. Unified interface for all multimedia content understanding and generation.

| Task | Audio | Image | Video | Document | Generation |

| Transcription | ✓ | - | ✓ | - | - | | Summarization | ✓ | ✓ | ✓ | ✓ | - | | Q&A | ✓ | ✓ | ✓ | ✓ | - | | Object Detection | - | ✓ | ✓ | - | - | | Text Extraction | - | ✓ | - | ✓ | - | | Structured Output | ✓ | ✓ | ✓ | ✓ | - | | Creation | TTS | - | - | - | ✓ | | Timestamps | ✓ | - | ✓ | - | - | | Segmentation | - | ✓ | - | - | - |

حقائق جاهزة للاقتباس

حقول وأوامر مستقرة للاقتباس في أنظمة الذكاء الاصطناعي والبحث.

أمر التثبيت
npx skills add https://github.com/samhvw8/dot-claude --skill ai-multimodal
المصدر
samhvw8/dot-claude
الفئة
#المستندات
موثق
أول ظهور
2026-02-01
آخر تحديث
2026-03-10

Browse more skills from samhvw8/dot-claude

إجابات سريعة

ما هي ai-multimodal؟

معالجة الذكاء الاصطناعي متعدد الوسائط عبر Google Gemini API (سياق 2M من الرموز المميزة). القدرات: الصوت (النسخ، 9.5 ساعة كحد أقصى، التلخيص، تحليل الموسيقى)، الصور (التسميات التوضيحية، التعرف الضوئي على الحروف، اكتشاف الكائنات، التجزئة، الأسئلة والأجوبة المرئية)، الفيديو (اكتشاف المشهد، 6 ساعات كحد أقصى، عناوين URL على YouTube، التحليل الزمني)، المستندات (استخراج PDF، الجداول، النماذج، الرسوم البيانية)، إنشاء الصور (تحويل النص إلى صورة، التحرير). الإجراءات: النسخ والتحليل والاستخراج والتسمية التوضيحية والكشف والتقسيم والتوليد من الوسائط. الكلمات الرئيسية: Gemini API، النسخ الصوتي، التعليق على الصور، التعرف الضوئي على الحروف، اكتشاف الكائنات، تحليل الفيديو، استخراج PDF، تحويل النص إلى صورة، الوسائط المتعددة، التعرف على الكلام، الأسئلة والأجوبة المرئية، اكتشاف المشهد، نسخ YouTube، استخراج الجدول، معالجة النماذج، إنشاء الصور، Imagen. يُستخدم عندما: نسخ الصوت/الفيديو، وتحليل الصور/لقطات الشاشة، واستخراج البيانات من ملفات PDF، ومعالجة مقاطع فيديو YouTube، وإنشاء صور من النص، وتنفيذ ميزات الذكاء الاصطناعي متعددة الوسائط. المصدر: samhvw8/dot-claude.

كيف أثبّت ai-multimodal؟

افتح الطرفية أو أداة سطر الأوامر لديك مثل Terminal أو iTerm أو Windows Terminal انسخ ونفّذ هذا الأمر: npx skills add https://github.com/samhvw8/dot-claude --skill ai-multimodal بعد التثبيت، سيتم إعداد المهارة تلقائيا في بيئة البرمجة بالذكاء الاصطناعي لديك وتصبح جاهزة للاستخدام في Claude Code أو Cursor أو OpenClaw

أين مستودع المصدر؟

https://github.com/samhvw8/dot-claude