ما هي ai-multimodal؟
معالجة وإنشاء محتوى الوسائط المتعددة باستخدام Google Gemini API. تشمل القدرات تحليل الملفات الصوتية (النسخ مع الطوابع الزمنية، التلخيص، فهم الكلام، تحليل الموسيقى/الصوت لمدة تصل إلى 9.5 ساعات)، وفهم الصور (التسميات التوضيحية، واكتشاف الكائنات، والتعرف الضوئي على الحروف، والأسئلة والأجوبة المرئية، والتجزئة)، ومعالجة مقاطع الفيديو (الكشف عن المشهد، والأسئلة والأجوبة، والتحليل الزمني، وعناوين URL على YouTube، حتى 6 ساعات)، والاستخراج من المستندات (جداول PDF، والنماذج، والمخططات، والرسوم البيانية، والصفحات المتعددة)، وإنشاء الصور (تحويل النص إلى صورة، والتحرير، والتكوين، الصقل). يُستخدم عند العمل مع ملفات الصوت/الفيديو، أو تحليل الصور أو لقطات الشاشة، أو معالجة مستندات PDF، أو استخراج البيانات المنظمة من الوسائط، أو إنشاء صور من المطالبات النصية، أو تنفيذ ميزات الذكاء الاصطناعي متعددة الوسائط. يدعم نماذج متعددة (Gemini 2.5/2.0) مع نوافذ سياقية تصل إلى 2M من الرموز المميزة. المصدر: microck/ordinary-claude-skills.